FORTRAN (盛行 于 20 世 纪 60 年 代 ) 是 最 早 允 许 我 们 在 大 型 机 上 编程 的 语言 。 之 后 是 BASIC (流行 于 20 世 纪 80 年 代 ) 赋予 
我 们 为 第 一 批 微型 计算 机 编写 程序 的 能 力 。 现 在 轮 到 CUDA， 让 我 们 可 以 为 超级 微型 计算 机 编写 程序 。 


本 书 介 绍 的 技术 能 够 帮助 工程 和 数学 等 领域 的 研究 者 以 超越 微机 100 信 的 速度 执行 计算 任务 。 这 使 新 的 计算 任务 得 以 完成 ， 
也 使 本 书 得 以 成 为 颠覆 传统 规则 的 教程 。 


Richard H.Rand， 康 奈 尔 大 学 机 械 与 航空 航天 工程 系 教授 、 数 学 系 教授 


本 书 结构 合理 ， 内 容 实 用 ， 能 够 帮助 读者 快速 体验 CUDA 并 行 编程 并 即时 得 到 结果 。 本 书 围绕 不 同 科学 和 工程 问题 ， 展 示 了 
GPU 编 程 的 魅力 。 书 中 提供 了 优秀 的 示例 程序 和 项 目 练习 ， 让 人 读 之 愉悦 。 


一 一 Matk Staveley 博 士 ， 微 软 Azure 高 性 能 计算 高 级 项 目 经 理 


本 书 名 副 其 实 ， 手 把 手 教授 读者 基本 概念 、 核 心 策略 、 关 键 术语 和 上 典型 示例 。 这 些 内 容 有 机 构成 的 教学 体系 以 老道 而 深入 的 
方式 介绍 高 性 能 计算 。 本 书 同 时 适用 于 专家 和 普通 读者 。 


Joseph M.Iaquinto 博 士 ，VA Puget Sound 公 司 研究 专家 


本 书 体现 的 实用 性 与 我 为 工程 师 讲 授 数 值 万 法 课程 的 教学 方法 具有 惊人 的 一 至 性。 本 书 将 为 工程 专业 的 学 生 以 及 程序 员 补 充 
新 的 数值 计算 工具 箱 ， 使 他 们 能 够 基于 CUDA 进 行 高 性 能 科学 计算 。 对 于 有 一 定编 程 基础 的 CUDA 初 学 者 ， 本 书 堪 称 完美 。 建 议 
读者 遵从 作者 的 建议 ， 尽 早 好 好 练习 实践 项 目 。 践 行 本 书 的 理论 ， 你 将 可 以 熟练 应 对 GPU 计 算 方 面 的 项 目 ， 进 入 CUDA 开 友 者 行 
列 。 


Lorena A.Batba， 乔 治 华 成 顿 大 学 机 械 与 航空 航天 工程 系 副 教授 
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BOR ADS 


欢迎 阅读 本 书 。 本 书 的 目标 是 让 你 杀身 参与 个 人 高 性 能 计算 (Personal High-Performance Computing, PHPC) . 20 
你 跟随 我 们 的 CUDA 世 界 之 旅 ， 只 需 一 台 基 本 的 游戏 级 计算 机 ， 你 就 可 以 执行 大 规模 并 行 计算 并 从 中 获 益 。 这 种 规模 的 计算 任务 
在 几 年 之 前 是 需要 超级 计算 机 才能 完成 的 。 本 书包 含 的 内 容 能 够 帮助 你 去 阅读 更 高 深 的 CUDA 著 作 并 开发 自己 的 CUDA 项 目 。 


首先 ， 介 绍 一 下 CUDA 以 及 我 们 的 教学 策略 。 


0.1 什么 是 CUDA 


CUDA 是 英 伟 达 公 司 为 促进 高 性 能 并 行 计算 的 普及 所 创建 的 支持 并 行 计算 的 软 硬 件 平台 。CUDA 的 硬件 方面 涉及 显卡 上 配备 
的 一 个 或 多 个 兼容 CUDA 的 图 形 处 理 器 (Graphics Processing Units, GPU) 。 英 伟 达 CUDA 工 具 箱 软件 则 提供 了 基于 
C/C++ 编程 语言 的 开发 环境 [1 

CUDA 使 用 的 基于 GPU 方 式 的 大 规模 并 行 计算 也 是 很 多 最 快 和 最 节能 超级 计算 机 所 采用 的 关键 技术 。 核 心 的 度量 准则 已 经 从 
每 秒 浮 点 计算 次 数 (FLOPS) 转变 为 每 瓦 电 能 的 每 秒 浮 点 计算 次 数 (FLOPS/watt， 即 计算 的 总 量 除 以 消耗 的 能 量 ) 。 而 GPU 并 
行 方式 在 每 瓦 电 能 的 每 秒 浮 点 计算 次 数 上 具有 优势 。 实 际 上 ， 在 2012 年 6 月 到 2013 年 12 月 期 间 ， 全 世界 最 节能 的 10 大 超级 计算 
机 从 刚 开始 的 完全 基于 IBM 的 绿色 基因 系统 ( 配 有 PowerPC CPU) 转变 成 基于 英 伟 达 公司 的 GPU 系统 咎 。 在 这 个 快速 转换 为 
GPU 计 算 的 过 程 中 ， 计 算 能 力 与 电能 消耗 的 比率 已 经 翻 了 两 番 ， 并 在 持续 增长 。 


0.2 ”学习 CUDA 的 “ 须 咎 ” 


基于 GPU 的 并 行 计 算是 真正 改变 行业 面 狐 的 技术 。 你 需要 驹 道 基于 CPU 的 并 行 计 算 以 保持 不 被 如 下 工程 领域 抛 下 : 应 用 计 
算 、 工 程 设计 和 分 析 、 计 算 机 仿真 、 机 器 学 习 、 视 党 和 成 像 系 统 或 任何 其 他 一 些 计算 密集 型 领域 。 基 于 GPU 的 并 行 计算 对 一 些 
计算 任务 可 以 减少 数 个 数量 级 的 时 间 消 耗 ， 所 以 那些 本 来 需要 持续 运行 奋 干 星期 才能 完成 的 大 型 计算 任务 (如 在 一 个 大 的 数据 集 
训练 机 器 学 习 系 统 ) ， 现 在 可 以 在 数 小 时 执行 结束 。 对 于 中 等 规模 的 计算 任务 ( 像 产 生 三 维 轮廓 图 ) ， 本 来 要 等 待 几 分 钟 的 ， 现 
在 却 能 进行 实时 的 交互 了 。 而 这 些 收 葵 只 需 你 付出 可 以 接受 的 成 本 ,不 论 是 在 精力 付出 上 ， 还 是 在 硬件 投入 上 。 你 需要 知道 
CUDA， 因 为 它 是 目前 在 榨取 GPU 并 行 计算 能 力 上 支持 力度 最 好 的 ， 也 是 最 方便 使 用 的 平台 。 


为 了 让 你 与 CUDA 第 一 次 杀 密 接触 ， 我 们 也 将 尽 最 大 努力 提供 应 该 让 你 知道 的 一 切 ( 尽 可 能 删 去 你 不 需要 知道 的 内 容 ! ) 。 
这 本 书 并 不 打算 成 为 一 个 百科 全 书 式 的 指南 ， 这 类 的 优秀 CUDA 书 籍 已 经 上 市 。 我 们 将 提供 这 类 参考 资源 的 链接 。 我 们 希望 你 在 
学 习 高 级 CUDA 实 用 知识 时 可 以 阅读 它们 。 对 于 这 类 指南 ， 它 们 的 最 大 不 足 在 于 假定 读者 已 经 具有 并 行 计算 和 CUDA 的 背景 知 
， 这 也 是 它们 的 专业 行 话 和 语 境 可 以 成 立 的 基础 。 


N 
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我 们 的 目标 是 以 清晰 、 简 明 的 方式 介绍 CUDA 最 为 核心 的 内 容 。 在 此 过 程 中 ， 不 要 求 任何 专业 背景 作为 先决 条 件 也 不 要 迷失 
于 烦琐 的 细节 之 中 。 我 们 意 在 提供 直接 通 往 更 有 意义 的 动手 实践 的 路 径 。 你 可 以 很 快 进 入 CUDA 世 界 ， 根 本 无 需 阅读 过 分 几 长 的 
背景 材料 。 如 果 你 需要 搭建 一 个 支持 CUDA 的 基本 系统 或 者 补充 C 语 言 编程 知识 ， 你 都 可 以 在 本 书 的 秃 明 附 录 中 找到 相关 的 指 
导 。 在 本 书 的 第 1 章 中 ， 你 束 可 以 杀手 运行 标准 示例 程序 ， 杀 身体 验 CUDA。 到 了 本 书 的 第 3 草 ， 你 应 该 束 可 以 运行 完全 由 你 目 己 
编写 的 CUDA 小 程序 了 。 随 后 的 草书 讲解 多 个 完整 应 用 实例 (你 可 以 生成 、 运 行 、 修 改 它们 ) ， 同 时 也 推荐 了 一 些 CUDA 项 目 作 
为 练 手 用 的 作业 。 请 准备 好 迎接 一 段 快 节奏 的 令 人 兴奋 的 CUDA 旅 程 ! 请 专注 于 那些 你 需要 知道 的 可 以 帮助 你 借助 CUDA 实 现 加 
速 的 内 容 ! 


0.3 ”本 书 的 读者 对 象 

我 们 的 目标 读者 是 懂 近 术 的 工程 师 。 如 果 你 是 一 个 在 职工 程 师 或 是 学 习 了 一 年 工程 课程 的 大 学 生 ， 那 么 本 书 融 是 为 你 准备 
的 。 本 书 提供 的 实例 期 望 以 清晰 明了 的 方式 帮助 工程 师 利 用 CUDA 驱 动 的 计算 ， 这 些 实例 包括 : 

.可视化 二 维 (2D) 和 三 维 (3D) AGE; 

求解 微分 方程 并 不 断 改 变 初始 值 或 边界 条 件 ; 

| 显示 /处 理 图 像 或 图 像 栈 ; 

- 计算 内 积 和 质心 ; 

求解 线性 代数 方程 组 ; 

` 蒙特 卡 罗 计 算 。 


我 们 假设 你 仅 有 少量 开展 计算 的 经 验 。 学 习 过 一 门 使 用 C 或 C++ 进行 计算 的 入 门 级 课程 就 足够 了 。 如 果 你 之 前 使 用 的 是 其 他 
编程 语言 ， 那 么 附录 C 可 以 为 你 快速 上 手提 供 帮 助 。 当 你 的 应 用 程序 涉及 创建 数组 和 循环 结构 ， 你 就 可 以 欣赏 到 基于 CPU 系 统 的 
品行 计算 典范 与 基于 GPU 和 CUDA 方 式 的 并 行 计算 范式 的 鲜明 对 比 。 


全 于 所 需要 的 数学 基础 ， 接 触 过 微分 方程 、 有 限 差 分 逼近 和 绪 性 代数 将 有 助 于 理解 录 几 个 实例 。 即 便 没 有 这 方面 的 储备 也 没 
有 大 碍 ， 我 们 同时 会 提供 必 备 的 基础 知识 。 当 一 个 例子 涉及 专业 育 景 时 ， 会 在 讲述 例子 之 前 提供 相关 数学 和 工程 概念 的 扼要 说 
明 ， 确 保 你 甚至 可 以 欣 营 和 领会 在 你 专业 之 外 的 示例 应 用 。 


与 背景 知识 同样 不 做 要 求 的 还 有 一 些 。 你 不 需要 和 我 们 一 起 完全 进入 CUDA; 你 不 需要 成 为 一 个 计算 机 科学 家 或 经 验 丰 富 的 
专业 程序 员 ; 你 不 需要 任何 特定 技术 领域 的 背景 知识 ;你 也 不 需要 具备 高 端的 或 者 黎 奇 的 计算 系统 。 


0.4 学 习 CUDA 的 必 备 


你 需要 一 台 文 持 CUDA 的 计算 机 。 这 人 台 计 算 机 不 需要 特别 化 哨 ， 相 当 于 一 人 台 网 吧 里 玩 游戏 的 计算 机 的 配置 即 可 。 你 还 需要 有 某 
些 很 容易 获得 的 免费 软件 。 如 果 你 所 在 的 机 构 已 经 为 你 准备 好 了 使 用 CUDA 的 全 部 计算 资源 ， 那 你 融 太 第 运 了 ， 可 以 马上 开工 。 
但 是 ， 我 们 一 定 要 考虑 那些 将 使 用 自己 的 个 人 计算 机 作为 CUDA 计 算 平 台 的 读者 。 附 录 A 和 附录 B 将 手把手 教 你 配置 自己 的 系 

统 。 我 们 的 目标 读者 所 使 用 的 操作 系统 可 能 横 跨 多 种 类 型 ， 因 此 针对 Windows 和 类 UNIX 系 统 (包括 Linux 和 OS X) 上 的 程序 生 


成 与 运行 会 分 别提 供 指导 。 


0.5 ”本 书 的 组 织 结构 


除了 本 章 之 外 ， 本 书包 含有 九 章 正文 和 四 个 附录 。 正 文章 节 提 供 了 大 多 数 读者 需要 掌握 的 核心 知识 ， 而 附录 用 于 得 缺 补漏 ， 
补 宛 背景 知识 。 我 们 的 呈现 方式 鼓励 你 积极 参与 到 CUDA 实 践 忆 中。 为 了 充分 利用 本 书 ， 请 在 你 阅读 这 些 章 节 时 ， 杀 目 创 建 、 测 
试 和 修改 书 中 的 应 用 程序 (也 称 为 app) 。 


第 1 章 启动 了 新 奇 的 CUDA 世 界 之 旅 ， 引 导 你 检查 你 的 CUDA 系 统 。 你 将 运行 CUDA 工 具 箱 附带 的 CUDA 示 例 应 用 程序 ， 以 
确保 你 有 一 个 支持 CUDA 的 系统 ;你 也 将 运行 几 个 C 语 言 编写 的 入 单程 序 ， 以 确保 你 可 以 随时 创建 、 编 译 和 执行 C 程 序 。 第 一 批 C 
程序 计算 一 组 输入 值 与 参考 点 的 距离 : 先 考 虑 每 次 输入 一 个 数 ， 而 后 扩展 为 每 次 输入 一 个 数组 。 这 些 应 用 程序 是 后 面 采 用 CUDA 
并 行 化 的 竺 对比 代码 。 


如 果 你 在 过 试 CUDA 的 简单 应 用 时 碰 到 问题 ， 请 转 入 附录 补充 必要 的 基础 知识 。 附 录 A 包 括 如何 检 查 你 的 计算 机 是 售 配 有 叉 
持 CUDA 的 GPU 以 及 在 不 文 持 的 情况 下 如 何 购买 并 安 半 一个。 附录 B 展 示 了 如 何 安 半 CUDA 软 件 。 随 后 的 附录 C 肖 兰 了 C 语 言 编程 
的 核心 要 素 。 


在 你 完成 第 1 章 并 根据 需要 读 完 了 附录 部 分 ， 你 就 可 以 进入 第 2 章 。 该 章 讲解 用 于 并 行 化 的 基本 CUDA 模 型 和 为 支持 CUDA 编 
程 所 扩展 的 C 语 言 ( 即 CUDA C). 


该 书 的 其 余部 分 围绕 一 系 刘 实例， 讲解 并 实现 了 CUDA 的 重要 知识 点 。 


第 3 章 展示 了 如 何 并 行 化 第 1 章 介绍 的 距离 阔 数 。 这 个 过 程 揭示 了 使 用 CUDA 进 行 并 行 计算 的 最 基本 和 要素， 也 给 出 了 在 CPU 
和 GPU 之 间 传 输 数 据 的 典型 模式 。 我 们 还 简要 介绍 了 统一 内 存 ， 它 可 以 让 你 的 开 友 过 程 变 得 更 简单 。 到 了 该 章 的 最 后 ， 你 将 基 
于 我 们 介绍 的 实例 应 用 程序 获得 CUDA 实 际 操作 经 验 ， 进 而 用 来 创建 你 目 己 的 应 用 程序 。 该 章 首 次 引用 附录 D， 讨 论 了 CUDA 开 
RIE, 


4 AS aR, Y RIESE., ARANE T ERRE ( 它 可 以 作为 一 个 图 像 进行 
处 理 ) ， 我 们 将 借 此 机 会 来 介绍 有 关 OpenGL 互 操作 性 的 技术 ， 使 显示 的 图 形 可 以 与 键盘 /鼠标 进行 实时 交互。 我 们 也 将 利用 微 
分 万 程 介绍 仿真 的 基础 知识 ， 为 多 种 不 同 的 初始 条 件 同 时 启动 仿真 代码 ， 达 到 并 行 稳定 性 分 析 之 目的 。 


在 第 5 章 中 ， 我 们 开始 正视 现实 中 的 挑战 ， 考 虑 处 于 不 同 线程 的 计算 并 非 相互 独立 的 问题 。 最 简单 同时 也 是 最 常见 的 情况 之 
一 ， 每 个 线程 与 计算 网 格 中 邻 反 的 其 他 续 程 相互 依赖 ， 这 融 是 所 说 的 模板 模式 (stencil pattern) 。 我 们 在 直观 的 图 像 滤 波 语 境 
下 介绍 基本 知识 ， 然 后 引进 一 个 不 同 的 模板 来 求解 稳 态 温度 分 布 问题 (steady-state temperature distribution) 。 该 章 的 讨论 
市 领 我 们 学 习 了 如 何 使 用 分 块 (tiling) 和 共享 内 存 ， 这 些 技巧 适用 于 各 式 各 样 的 应 用 场景 。 


第 6 章 用 于 解决 计算 过 程 中 所 有 线程 存在 依赖 的 挑战 性 场景 。 我 们 先 从 计算 两 个 同 量 的 点 积 这 一 简单 例子 出 友 ， 识 别 出 其 中 
的 挑战 (以 及 一 些 解决 方案 ) ， 然 后 继续 解决 一 个 与 质心 有 关 的 有 趣 应 用 。 


第 7 章 探讨 需要 使 用 三 维 网 格 的 并 行 计算 场景 。 这 一 扩展 直接 建立 在 之 前 一 维和 二 维 网 格 的 基础 之 上 。 然 后 ， 我 们 探索 切片 
法 、 体 绘制 法 和 光绪 投射 法 ， 及 用 二 维 网 格 达到 交互 了 式 显 示 三 维 网 格 数据 的 目的 。 


第 8 章 简要 介绍 CUDA 阔 数 库 。 这 样 你 将 了 解 仓 在 哪些 可 复 用 的 代码 ， 并 知道 什么 时 候 以 及 以 什么 万 式 利用 它们 。 我 们 使 用 
CUDA 库 不 仅 重 新 实现 前 面 章节 里 的 一 些 应 用 ， 也 创建 了 两 个 新 的 应 用 程序 。 


当 你 抵 临 本 书 的 结尾 ， 仍 然 有 大 量 需要 学 习 的 东西 和 需要 探索 的 材料 。 第 9 章 为 你 提供 额外 的 CUDA 和 资源， 包括 书 籍 、 博 
、 网 站 、 视 频 和 示例 ， 它 们 能 够 进一步 加 强 你 的 CUDA 经 验 。 


OR} 
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0.6 本 书 体例 


本 书 使 用 以 下 约定 : 
:为 了 跟 正 常 文字 区 分 ， 代 码 清单 使 用 等 帘 (monospace) 字体 排版 。 
. 我 们 经 常 把 类 UNIX 系 统 ， 如 Linux 和 OS 义 ， 统 一 称 为 Linux。 


.我们 把 完整 的 示例 程序 称 为 应 用 程序 (简写 为 app) 。 
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第 9 章 
探索 CUDA 生态 系统 
图 0.1 章节 间 的 依赖 关系 
RAVE ATA (>) 来 表示 谱 套 的 菜单 选择 。 
. 遵从 常规 用 法 ，“ 一 维 ”、“ 二 维 ” 和 “三 维 ”分 别 缩写 为 1D、2D 和 3D。 
:一些 图 形 为 了 增强 灰 度 对 比 强度 做 了 修改 。 


: 每 章 以 建议 项 目 清 单 结 束 ， 为 读者 提供 附加 实践 CUDA 的 机 会 。 


附录 
CUDA 实 践 技巧 : 


计时 、 性 能 分 析 、 
错误 人 处理 与 调试 


方 括号 里 放 一 个 数字 ， 并 采用 首 通 文本 格式 表达 ， 代 表 引 用 的 所 在 章节 或 附录 末尾 的 一 个 参考 文献 编号 。 


0.7 本 书 代码 


本 书 应 用 程序 的 代码 可 以 通过 www.cudaforengineers.com 获 取 。 昌 然 书 中 及 用 了 一 些 代码 片断 和 “骨架 ”代码 
(skeleton code) ， 但 标记 为 “代码 清单 ”的 代码 (包含 行 号 ) 是 真实 可 运行 代码 的 一 部 分 。 我 们 努力 确保 代码 经 过 测试 ， 可 
以 成 功 运行 于 多 个 系统 ， 包 括 Windows 7, Windows 8.1、Linux 操 作 系 统 (Ubuntu 14.04 LTS) 和 OS X 10.10 (除了 第 3 章 最 
后 有 一 个 确实 会 友 生 异常 的 例子 ) 。 


本 书 介绍 的 代码 在 创建 阶段 非常 在 意 简 洁 性 、 可 读 性 、 可 解释 性 和 易 懂 性 。 这 一 指导 思想 允许 我 们 在 很 多 时 候 并 不 需要 考虑 
很 多 商业 代码 需要 的 功能 ， 如 错误 检测 和 性 能 评价 等 。 有 关 这 些 功 能 的 主题 统一 放 到 了 附录 D 中 ， 所 以 你 可 以 根据 需要 添加 它 
们 。 


CUDA 应 用 程序 既 可 以 用 C 语 言 也 可 以 用 C+ + 语言 的 编程 风格 进行 开发 。 我 们 主要 用 (语言 编程 风格 ， 以 尽量 减少 对 读者 所 
需 编程 背景 的 要 求 。 


0.8 用户 指南 


我 们 编写 本 书 的 目的 就 是 让 广大 的 技术 型 读者 积极 参与 到 使 用 CUDA 进 行 GPU 并 行 计算 的 洪流 之 中 。 作 为 比喻 ， 我 们 邀请 你 
进行 一 次 基于 GPU 并 行 计算 的 旅程 ， 而 本 书 即 是 本 旅程 的 导游 手册 。 比 喻 为 导游 手册 在 许多 方面 都 是 恰当 的 ， 其 中 包括 : 


` 如 果 你 只 阅读 本 教程 ， 却 并 没有 动手 实践 ， 那 么 本 书 的 预期 使 命 还 没有 真正 完成 。 请 亲自 加 入 实践 的 旅程 | 


+ 多 数 导 游 手 册 帮助 你 规划 出 国旅 行 之 前 需要 做 的 事情 ， 比 如 办 理 接 种 疫苗 和 护照 。 而 我 们 这 里 不 涉及 这 些 ， 而 是 分 别 在 附 
录 人 A 和 附录 B 中 介绍 所 需 的 硬件 配置 和 软件 配置 。 


. 到 国外 旅行 往往 涉及 简单 学 习 一 个 新 的 语言 ， 其 至 是 特殊 的 方言 。 对 于 此 次 旅行 ， 语 言 是 C， 而 方言 是 CUDA。 如 果 你 熟 


ÆC (或 C++) ， 你 可 以 应 付 自如 。 如 果 你 之 前 没有 C 语 言 的 基础 ， 也 不 要 恐惧 ， 附 录 C 为 你 准备 了 本 次 旅程 所 需 的 基本 知识 点 。 


导游 手册 一 般 提 供 一 系列 必 去 观赏 的 圣地 和 必 去 参加 的 活动 。 我 们 的 CUDA 世 界 之 旅 必须 看 的 地 方 是 本 书 的 第 1 章 和 第 2 
章 ， 这 些 地 方 让 你 党 试 一 下 CUDA 示 例 代 码 的 威力 ， 并 获得 接触 CUDA 方 言 的 初 体验 。 必 须 做 的 活动 是 第 3 章 ， 让 你 学 习 如 何 把 串 
行 代码 转换 成 并 行 CUDA 人 代码 。 


. 对 于 那些 希望 进入 更 广泛 和 更 深入 的 CUDA 之 旅 的 读者 ， 只 需 继 续 学 习 后 续 章 节 。 


: 浓缩 的 和 有 针对 性 的 旅行 是 可 能 的 。 出 发 点 是 第 3 章 ， 在 该 章 我 们 创建 了 第 一 个 并 行 应 用 程序 。 如 果 你 急于 到 达 某 个 特定 
的 目的 地 ， 请 直接 进入 第 3 章 。 如 果 你 没有 碰 到 麻烦 ， 可 以 从 这 一 章 开 始 往 下 推进 。 和 否则， 还 请 返回 到 第 1 章 和 第 2 章 ( 


录 ) ， 以 填补 必要 的 基础 知识 。 从 那里 开始 ， 你 可 以 选择 不 同 的 行进 方向 : 
:如果 你 的 目标 围绕 交互 式 图 形 学 、 科 学 可 视 化 、 游 戏 等 ， 请 转 到 第 4 章 和 第 7 章 继续 学 习 。 


` 如 果 你 的 目标 是 科学 计算 、 偏 微分 方程 或 是 图 像 处 理 等 ， 则 请 继续 学 习 第 5 章 和 第 6 章 。 


- 如 果 你 的 主要 目标 是 利用 现 有 CUDA 函 数 库 ， 那 么 只 需 直 接 跳 到 第 8 章 进 行 阅读 。 


Á 


. 不 论 是 长 途 还 是 和 短途， 我们 都 喜欢 看 到 新 奇 的 事物 ， 而 实际 尝试 做 新 的 东西 会 提升 我 们 经 历 的 长 期 影响 。 所 以 ， 不 要 只 是 
单纯 阅读 。 碰 到 代码 ， 就 去 创建 、 编 译 并 执行 它们 ! 还 要 修改 它们 并 测试 你 的 修改 ! 建议 你 做 一 做 每 章 末 尾 给 出 的 推荐 项 目 ， 或 
者 创建 你 自己 的 项 目 。 


-在 某 些 阶段 的 旅程 ， 需 要 你 独自 去 经 历 ， 还 有 一 些 旅程 你 是 和 一 群 游客 及 一 名 导游 一 起 出 行 。 我 们 尽 最 大 努力 来 编写 一 本 
很 适合 你 独自 阅读 的 书 。 但 是 如 果 有 条 件 在 一 个 课程 中 使 用 本 书 ， 请 多 多 与 老师 和 同学 进行 讨论 和 交流 。 提 出 问题 和 回答 问题 是 
开展 学 习 的 好 方法 ， 另 一 种 学 习 方 法 是 使 用 最 合适 的 调试 工具 。 


- 任何 旅途 都 可 能 出 现 差 错 ， 所 以 需要 人 额外 的 指引 或 调度 信息 。 解 决 这 些 问 题 的 材料 安排 在 附录 D 和 第 9 章 ， 它 们 提供 了 额 
外 的 资源 链接 ， 帮 助 你 探索 “CUDA 生 态 系统 o 


0.9 历史 沿 


本 书 是 作者 在 CUDA 绰 域 探 险 数 年 的 经 验 轧 结 。 最 切 开 展 的 是 容积 医学 影像 (volumetric medical imaging) 、2D 和 3D 成 
像 〈 即 透视 和 CT 扫 摘 ) 的 配 准 以 及 计算 机 辅助 设计 (computer-aided design) 和 增 材 制造 (additive manufacturing) 的 新 
方法 研究 。 随 着 CUDA 的 效用 和 重要 性 变 得 愈加 明显 ， 分 享 对 CUDA 的 欣赏 和 经 验 无 疑 是 非常 正确 的 。 我 们 创建 了 一 门 专题 性 的 
CUDA 应 用 课程 ， 课 程 面向 专业 分 布 很 广泛 的 学 生 ， 只 需 他 们 具备 基本 的 计算 经 验 即 可 。 本 书 的 写作 是 在 三 次 课程 讲授 基础 上 进 
行 的 ， 课 程 历经 完善 ， 已 及 展 到 包括 系统 配置 、CUDA 样 例 、C 语 言 编程 基础 速成 、CUDA 的 并 行 化 模型 (同时 包含 了 实现 它们 
所 需 的 超出 C 语 言 基础 知识 之 外 的 东西 ) ， 另 外 对 一 些 实 用 的 CUDA 特 性 予以 全 面 讲解 ， 包 括 原 子 功能 、 共 享 内 存 和 交互 式 图 形 
学 。 所 有 这 些 内 容 都 安排 在 为 期 10 周 一 个 学 期 的 前 半 部 分 ， 其 余 时 间 专 供 项 目 实践 和 学 生 演 示 之 用 。 每 个 学 生 在 第 5 周 进行 项 目 
选 题 的 演讲 ， 在 最 后 的 第 10 周 ， 对 所 做 项 目 进 行 展 示 。 在 两 者 乙 间 的 课 上 ， 安 排 为 答疑 时 间 和 (教师 或 客座 专家 ) 分 享 创建 和 
使 用 CUDA 应 用 的 经 验 。 与 本 书 的 逻辑 结构 对 应 ， 课 程 的 执行 流程 大 致 如 下 : 


| 系统 配置 和 初始 CUDA 样 例 运行 : 附录 A、 附 录 B 和 第 1 章 。 

. C 语 言 基础 : 附录 C。 

-CUDA 基 础 ， 包 括 并 行 模 型 和 关键 语言 扩展 : 第 2 章 和 第 3 章 。 
交互 式 图 形 学 : 第 4 章 。 

共享 内 存 : 第 5 章 的 第 一 部 分 。 

. 原子 功能 : 第 6 章 的 第 一 部 分 。 


“项目: 让 学 生 自由 探索 剩 下 的 第 5~9 章 ， 寻 找 项 目 实践 的 灵感 ， 鼓 励 他 们 积极 编写 代码 ， 并 尽 可 能 多 地 帮助 他 们 去 克服 其 


中 碰 到 的 障碍 。 


虽然 本 书 的 组 织 跟 课程 有 一 定 的 天 系 ， 但 涉及 的 内 容 大 多 是 无 同 导 的 CUDA 世 界 ， 如 此 借 大 的 吐 域 ， 很 难 不 迷路 。 我 们 搜集 
并 查阅 了 很 多 材料 ， 包 括 书籍 、 示 例 代码 、 研 究 类 论文 、 研 讨 会 讲座 ， 以 精 选 出 学 习 CUDA 必 需 的 那些 知识 ， 能 够 让 外 行 工程 师 
也 知道 利用 如 CUDA 这 样 的 强大 工具 能 做 什么 以 及 如 何 做 到 。 我 们 真诚 希望 ， 本 书 可 以 同时 支持 个 人 学 习 和 课堂 配套 教学 ;我 们 
真诚 地 希望 本 书 能 帮助 你 避 开 拦路 虎 ， 让 你 的 CUDA 之 旅 更 高 效 、 更 愉快 、 更 有 收获 。 
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本 章 市 领 读者 进入 CUDA 并 行 计算 的 世界 。 我 们 将 从 运行 一 个 CUDA 工 具 箱 (CUDA Toolkit) 提供 的 样 例 程 序 开始 。 这 个 
样 例 程序 包含 串 行 和 并 行 两 个 版 本 ， 因 此 读者 可 以 通过 运行 性 能 上 的 对 比 来 建立 CUDA 是 如 何 增强 运算 能 力 的 第 一 印象。 需要 注 
意 的 是 ， 搭 建 和 执行 应 用 需要 依赖 读者 使 用 的 操作 系统 ， 我 们 会 对 在 Windows、Linux 和 @Os X 下 运行 样 例 程 序 提供 详细 的 指 
导 。 在 本 章 的 结尾 ， 我 们 将 给 出 后 文 用 以 讲解 CUDA 并 行 化 的 两 个 简单 C 语 言 程序 。 


在 本 章 中 ， 如 果 出 现 了 需要 读者 注意 的 事项 或 者 相关 知识 ,我们 会 用 提示 (checkpoint) 来 指引 读者 阅读 附录 的 相关 内 
容 。 当 提示 读者 此 处 需要 去 查询 附录 内 容 时 ， 请 相信 这 样 做 会 比 勉强 继续 阅读 而 不 去 弄 清 相关 的 关键 知识 更 加 节省 时 间 。 


在 这 里 我 们 要 介绍 第 一 个 提示 : 读者 需要 在 一 个 能 够 使 用 CUDA 的 系统 上 工作 ， 其 中 包括 一 块 支持 CUDA 的 图 形 显卡 并 且 安 
和 半 了 CUDA 开 友 套 件 。 如 果 有 任何 天 于 开 妈 环境 的 问题 请 参见 附录 A 和 附录 B 来 确认 硬件 状态 和 软件 状态 。 


1.1 ”运行 CUDA 样 例 程序 


让 我 们 从 运行 第 一 个 样 例 程序 nbody 开 始 ， 以 此 获得 一 个 有 意义 的 CUDA 初 体验 。 这 个 程序 模拟 了 大 量 受 到 万 有 引力 影响 的 
粒子 群 的 运动 情况 ， 并 且 进 行 了 可 视 化 。 


1.2 ”运行 我 们 上 自己 的 串 行 程序 


是 时 候 把 我 们 的 目光 从 CUDA 样 例 程序 移 开 ， 构 建 并 运行 我 们 目 己 的 程序 。 在 本 节 我 们 将 给 出 完成 相同 功能 的 两 个 应 用 的 代 
码 dist_v1 和 dist_v2。 每 个 应 用 都 计算 了 从 一 个 参考 点 到 NN 个 在 直线 上 均 义 分 布 的 点 之 间 的 一 组 距离 。 这 一 任务 精心 设计 ， 力 求 
简单 ， 但 是 对 于 工程 师 而 言 仍然 具有 明确 的 指导 意义 。 读 者 也 很 容易 考虑 到 如 何 将 这 里 的 实现 推广 到 更 加 通用 的 场合 。 


值得 注意 的 是 ， 虽 然 dist_v1 与 dist_v2 实 现 的 是 同一 个 任务 ， 但 是 它们 通过 不 同 的 方法 来 完成 。 


. dist_v1 使 用 一 个 for 循 环 ， 循 环 内 先 对 循环 变量 进行 归 一 化 得 到 一 个 输入 位 置 然 后 计算 并 存储 该 位 与 参考 位 置 的 距离 。 这 


里 我 们 建立 一 个 distance () 郧 数 计算 一 个 参考 位 置 和 茶 个 点 间 的 距离 ， 该 函数 调用 了 NN 次 。 


- dist_v2 以 建立 一 个 输入 位 置 的 数组 作为 开始 ， 然 后 将 这 个 数组 指针 传 给 distance-Array () 函数 ， 该 函数 在 一 次 调用 中 计算 


并 存储 整个 数组 距离 值 。 


dist_v1 和 dist_v2 将 作为 我 们 在 第 3 草 中 讲解 并 行 化 的 初始 实验 对 象 。 这 里 给 出 它们 的 代码 ， 每 个 程序 的 创建 、 编 译 以 及 运行 
的 指南 和 详细 解释 参见 附录 C。 这 里 给 出 另 一 个 提示 : 你 需要 能 够 编译 并 运行 dist_v1 和 dist_v2 这 两 个 程序 。 如 果 你 对 此 有 任何 
问题 ， 请 参考 附录 C 来 找到 解决 这 些 问题 的 方法 。 


1.3 “本章 小 结 


在 本 章 ， 我 们 运行 了 一 些 CUDA 样 例 程序 并 且 获 得 了 GPU 并 行 计算 的 直观 体验 。 同 时 我 们 介绍 了 两 个 捉 行 的 程序 ， 将 在 后 文 
作为 并 行 化 的 实验 国 数 。 其 中 dist_v1 提 供 了 一 个 最 简单 的 并 行 化 实验 例子 ， 而 dist_v2 则 描述 了 一 个 实用 的 结构 和 更 典型 的 数据 


Tito 


现在 要 准备 好 进入 第 2 草 ， 开 展 CUDA 并 行 计算 模型 的 讨论 ， 之 后 的 第 3 章 将 展示 使 用 CUDA 进 行 并 行 化 的 实现 细节 。 


1.4 HME 


项 目 1~ 5 是 天 于 运行 其 他 CUDA 样 例 程序 的 练习 。 
1. 运 行 在 1_Utilities 文 件 夹 下 的 deviceQuery 样 例 程序 ， 获 取 读 者 计算 机 系统 中 支持 CUDA 的 GPU 信 息 。 


2. 运 行 在 2_Graphics 文 件 夹 下 的 Mandelbrot 样 例 程序 。 模 拟 选 项 将 会 出 现在 命令 行 窗口 中 。 你 可 以 通过 ESC 键 随时 退出 模 
拟 。 


3. 运 行 在 2 Graphics 文 件 夹 下 的 volumeFilter 样 例 程序 。 模 拟 选项 将 会 出 现在 命令 行 窗 口中 。 
4. 运 行 在 5 Simulations 文 件 夹 下 的 smokeParticles 样 例 程序 。 在 模拟 中 点 击 鼠 标 右键 可 以 看 到 交互 选项 。 


5. 运 行 在 ?_Simulations 文 件 夹 下 的 fluidsGL 样 例 程序 。 在 模拟 中 使 用 鼠标 左 键 点 击 和 拖 动 来 操纵 液态 粒子 〈[ 键 重 置 模 
H) 。 


6. 我 们 定义 了 distance () 水 数 返回 sqrt ( (x2-x1) * (x2-x1) ) 的 计算 结果 。 另 一 种 蔡 代 计算 欧 氏 距离 的 蔡 代 方式 是 使 
用 绝对 值 距离 。 请 创建 一 个 替代 现 有 方法 的 基于 绝对 值 的 distance () HA. S 
考 http://en.cppreference.com/w/cnumeric/math 来 查看 更 多 音 用 数学 国 数 。 


B26 CUDAR 


在 第 1 章 中 我 们 的 讨论 以 计算 从 一 个 参考 点 到 一 组 输入 位 置 距离 的 函数 distance-Array () 结束 。 这 个 计算 完全 是 串 行 的 ， 
距离 数值 是 根据 一 个 for 循 环 中 的 计数 和 输入 数组 的 沁 围 顺序 计算 的 。 但 是 ， 任 何 一 个 距离 的 计算 相对 于 其 他 计算 都 是 独立 的 。 
在 串 行 实现 中 ， 我 们 不 能 友 挥 计算 独立 的 优势 反而 会 在 计算 中 等 待 ， 直 到 一 个 计算 完成 再 进行 下 一 个 计算 。 如 果 读 者 所 使 用 的 系 
统 同 一 时 间 只 能 进行 一 个 计算 ， 那 么 串 行 的 实现 无 可 奇 责 。 然 而 ， 在 一 个 通用 的 GPU 计算 中 ， 我 们 拥有 成 特 上 干 的 可 以 同时 进 
行 运算 的 硬件 单元 。 为 了 让 我 们 拥有 的 众多 处 理 器 皮 挥 优势 ， 我 们 将 串 行 模式 〈 同 一 时 间 内 只 进行 一 个 计算 任务 ， 其 他 的 依次 等 
待 ) 转换 为 并 行 模式 (大 量 的 计算 同时 执行 ) 。 本 章 中 描述 了 CUDA 模 式 中 的 并 行 、CUDA 的 基本 编程 语言 扩展 以 及 应 用 程序 编 
程 接口 (API) 【1, 21, 


2.1 CUDA 并 行 模式 


从 串 行 到 CUDA 并 行 同 时 涉及 硬件 和 软件 两 方面 。 硬 件 的 转换 涉及 包含 了 多 个 运算 单元 以 及 运算 规划 和 数据 传输 机 制 的 心 
片 。 软 件 的 转换 涉及 API 以 及 对 编程 语言 的 扩展 。 


主机 和 设备 
明确 一 下 我 们 的 术语 ， 主 机 指 代 CPU 和 内 存 ， 设 备 指 代 GPU 和 显存 。 


GPU 能 够 进行 并 行 化 的 关键 属性 是 其 并 不 是 只 有 一 个 或 几 个 计算 单元 〈 像 现代 多 核 CPU 一 样 ) 而 是 其 具有 成 百 上 干 计算 单 
元 。 如 果 读 者 能 够 将 计算 分 成 大 量 的 独立 子 任务 ， 这 些 大 量 的 计算 单元 为 并 行 执行 这 些 任 务 提供 了 可 行 性 ， 换 言 之 ， 同 时 执行 这 
些 任务 而 不 是 串 行 进行 。 值 得 注意 的 是 ， 这 样 的 并 行 涉及 许多 规划 方面 的 问题 : 如 何 让 一 个 特定 的 计算 单元 知道 其 需要 执行 哪个 
子 任务 ”如 何 让 大 量 的 计算 单元 进行 指令 和 数据 的 访问 而 不 会 造成 巨大 的 通信 阻塞 


CUDA 引 用 了 单 指令 多 线程 (SIMT) 的 并 行 模式 。CUDA GPU 包含 了 大 量 的 基础 计算 单元 ， 这 些 单元 被 称 为 核 (core) 
一 个 核 都 包含 了 一 个 逻辑 计算 单元 (ALU) 和 一 个 浮 点 计算 单元 (FPU) 。 多 个 核 集成 在 一 起 被 称 为 多 流 处 理 器 (SM) 。 


我 们 将 一 个 计算 任务 分 解 为 多 个 子 任务 ， 并 将 其 称 为 线程 ， 多 个 线程 锐 组 织 为 线程 块 。 线 程 块 被 分 解 为 大 小 与 一 个 SM 中 核 
数量 相同 的 线程 束 (warp) 。 每 个 线程 束 由 一 个 特定 的 多 流 处 理 器 执行 。 这 些 多 流 处 理 器 的 控制 单元 指挥 其 所 有 核 同 时 在 一 个 
线程 束 的 每 个 线程 中 执行 同一 个 指令 ， 因 此 这 个 术语 称 为 单 指令 多 线程 (single instruction multiple thread) 。 


执行 同一 指令 并 不 是 仅仅 重复 一 种 运算 ， 因 为 每 个 线程 使 用 由 CUDA 提 供 的 单独 的 索引 值 进行 了 不 同 的 运算 B]。 这 种 SIMT 
的 方法 是 可 拓展 的 ， 因 为 可 以 通过 使 用 更 多 的 多 流 处 理 器 分 担 计算 负载 来 增加 计算 的 吞吐 量 。 图 2.1 显 示 了 一 个 GPU 和 一 个 CPU 
之 间 的 架构 对 比 。CPU 拥 有 较 少 的 核 ， 占 据 芯 片 的 小 部 分 ， 而 更 多 的 区 域 被 用 来 加 速 那些 少量 核 的 控制 器 和 缓存 占据 。 通 常 而 
言 ， 访 问 数据 所 需 的 时 间 会 随 着 计算 核 和 存 贮 数据 的 内 存 间 位 置 的 距离 而 增加 。 核 等 待 数据 的 时 间 被 称 为 延迟 (latency) ， 并 
目 一 个 CPU 通过 设计 大 量 的 可 以 快速 访问 的 空间 存储 数据 来 缩小 延迟 。 


Control ALU ALU 
ALU ALU 


Cache 


DRAM DRAM 
CPU GPU 
图 2.1 CPU 与 GPU 的 架构 对 比 
(图 片 来 源 于 CUDA Programming Guide， 已 获得 NVIDIA 公 司 版 权 ) 


GPU 的 空间 分 配 则 十 分 不 同 。 心 片上 的 大 多 数 地 方 被 分 配给 了 大 量 组 织 成 多 流 处 理 器 的 运算 单元 和 共享 的 控制 单元 。 与 其 
缩小 延迟 〈 需 要 为 每 个 核 配备 大 量 缓 仔 ) GPU 更 倾向 于 隐藏 延迟 。 当 一 个 线程 束 所 需要 的 数据 不 可 获得 时 ， 多 流 处 理 器 会 转向 
执行 男 一 个 可 获得 数据 的 线程 束 。 所 天 注 的 重点 是 整体 的 运算 否 吐 量 而 不 是 单个 核心 的 执行 速度 。 


现在 我 们 已 经 准备 好 讨论 CUDA 的 SIMT 软 件 方 面 的 实现 。 关 键 的 软件 结构 是 一 种 叫 作 核 浮 数 (kernel) 的 特殊 形式 的 函 
数 ， 这 个 遂 数 中 严 生 大 量 的 组 织 成 可 以 分 配给 多 流 处 理 器 的 计算 线程 。 用 CUDA 术 语 来 讲 ， 我 们 加 载 一 个 核 函数 来 创建 一 个 由 多 
个 线程 块 组 成 的 线程 网 格 ， 线 程 块 由 多 个 线程 组 成 。 为 了 蔡 换 捉 行 的 计算 ,我 们 需要 一 种 方法 来 告诉 每 个 线程 去 执行 哪 一 部 分 运 
S, 换言之 ,访问 哪 一 个 输入 的 入 口 或 者 哪 一 个 输出 的 出 口 ， 以 及 选择 哪个 计算 或 存储 。CUDA 通 过 为 每 个 线程 提供 内 建 的 索引 
变量 来 进行 这 样 的 编 址 。 这 些 CUDA 的 这 引 变量 会 蔡 换 捉 行 代码 里 的 循环 床 引 。 加 载 核 溺 数 、 创 建 计算 网 格 、 达 引线 程 块 和 线程 
的 具体 过 程 将 在 2.2 节 中 进行 讨论 。 


2.2 “需要 知道 的 CUDA API 和 Ci 语言 拓展 


CUDA 并 行 所 需要 的 基本 任务 包含 以 下 几 点 : 

. 使 用 特定 的 网 格 维度 加 载 核 函 数 ( 线 程 块 和 线程 的 数目 ) 。 

. 明确 哪些 函数 编译 后 运行 在 设备 (GPU) 上 、 主 机 (CPU) L, 或 者 两 者 之 上 。 
. 访问 和 运用 线程 块 和 线程 的 计算 索引 值 。 

. 分 配 内 存 和 传输 数据 。 


让 我 们 从 介绍 核 消 数 的 加 载 开始 。 正 如 上 面 讨论 的 ， 核 立 数 是 一 种 特殊 的 冰 数 ， 加 载 核 浮 数 与 常规 的 函数 调用 看 起 来 很 像 ， 
详细 来 说 ， 加 载 核 国 数 从 一 个 函数 名 开始 ， 比 如 akKernel， 然 后 以 一 个 包含 了 以 逗号 分 开 的 参数 列表 的 括号 结尾 。 现 在 我 们 来 看 
一 下 编程 语言 拓展 : 为 了 目 然 地 表达 并 行 并 且 声 明 计 算 网 格 ， 在 阔 数 名 和 含有 参数 的 括号 中 间 加 入 了 网 格 的 维度 和 续 程 块 的 维度 
(被 放 在 三 个 尖 括 号 中 ) : 


akKernel<<<Dg, Db>>>(args) 


需要 注意 的 是 ，Dg、 网 格 中 的 线程 块 数 和 和 Db、 线程 块 中 的 线程 数目 ,一 起 组 成 了 加 载 核 浮 数 中 的 执行 配置 和 维度 的 声明 。 


这 构成 了 加 载 一 个 和 冰 数 的 语法 ,但 是 如 何 声 明 一 个 从 主机 端 调用 但 是 在 设备 端 执行 的 水 数 仍 有 一 些 疑 问 。CUDA 使 用 在 消 
数 前 面 添加 下 面 的 一 个 遂 数 标识 符 来 作为 区 分 : 


-global 是 标志 着 和 函数 的 标识 符 〈 可 以 在 主机 端 调用 并 在 设备 端 执行 ) 。 
-host 函数 从 主机 端 调用 在 主机 端 执行 。 〈 这 是 一 个 默认 的 限定 符 ， 通 第 被 省 略 。) 
-device 函数 从 设备 端 调用 并 在 设备 端 执行 。 (从 核 函 数 中 调用 的 函数 需要 有 device 限定 符 。) 


` Ahk host device__ AAA R ATI Fy EIS HAL EIA RALEA 0 


在 CUDA 5.0 以 后 ， 在 一 个 计算 能 力 在 3.5 或 以 上 的 设备 中 ， 从 另外 的 核 函 数 中 加 载 核 函 数 成 为 了 可 能 由 +> l ABA LIA 
用 _ global ”函数 被 称 为 动态 并 行 ， 这 超出 了 本 书 的 范围 。 


核 冰 数 有 几 个 值得 注意 的 权限 和 限制 


` 核 函 数 不 能 带 有 返回 值 ， 因 此 返回 类 型 通常 为 void。 并 且 核 函数 需 如 下 声明 : 


global void aKernel (typedArgs) 


+ 核 函 数 提供 了 对 于 每 一 个 线程 块 和 线程 的 维度 数 和 索引 变量 。 


We 


. 维度 数目 变量 : 
- gridDim 声 明了 网 格 中 的 线程 块 数 目 。 
- blockDim 声 明了 每 个 线程 块 中 的 线程 数目 。 
索引 变量 : 
:blockIdx 给 出 了 这 个 线程 块 在 网 格 中 的 索引 。 
:thteadIdx 给 出 了 这 个 线程 在 线程 块 中 的 索引 。 
` 在 GPU 上 执行 的 核 溃 数 通 常 不 能 访问 主机 端 CPU 可 以 访问 的 内 存 中 的 数据 。 
内 存 访问 的 发 展 


最 近 的 发 展 旨 在 统一 CPU 和 一 个 或 多 个 GPU 可 以 访问 的 内 存 。 我 们 将 会 讨论 到 在 主机 端 和 设备 端 进行 内 存 传 输 的 管理 所 需要 
的 知识 。 我 们 会 在 第 3 章 介 绍 一 种 可 以 使 用 的 统一 内 存 访 问 。 


CUDA 运 行 时 API 提 供 了 一 些 可 以 将 输入 数据 传输 到 设备 痕 和 将 结果 传 回 到 主机 闯 的 函数 ， 如 下 所 示 : 


-cudaMalloc () 函数 可 以 分 配 设备 端 内 存 。 
- cudaMemcpy () 将 数据 传 入 或 传 出 设备 。 
-cudaFree () 释放 掉 设 备 中 不 再 使 用 的 内 存 。 
核 函 数 并 行进 行 多 次 运算 ， 但 是 它们 也 放 径 了 对 执行 顺序 的 控制 。CUDA 为 需要 同步 和 并 友 执 行 时 提供 了 相应 的 函数 : 
- _syncThreads () 可 以 在 一 个 线程 块 中 进行 线程 同步 。 
- cudaDeviceSynchronize () 函数 可 以 有 效 地 同步 一 个 网 格 中 的 所 有 线程 。 
- 原子 操作 ， 例 如 atomicAdd () ， 可 以 防止 多 线程 并 发 访问 一 个 变量 时 造成 的 冲突 。 
除了 上 文 介绍 的 函数 和 标识 符 以 外 ，CUDA 同 时 提供 了 一 些 额外 的 有 用 的 数据 类 型 : 
‘size_t: 代表 内 存 大 小 的 专用 变量 类 型 。 


- cudaEttot t: 错误 处 理 的 专用 变量 。 


a 


‘ye RAS CUDA 将 标准 C 的 向 量 数据 类 型 拓展 到 了 4 个 。 独 立 的 组 件 通 过 后 级 .x、.y、.z 和 .Ww 进行 访问 。 
向 量 类 型 的 关键 重要 用 法 
CUDA 在 blockIdx 和 thteadIdx 上 使 用 uint3 向 量 类 型 。uint3 变 量 是 一 个 包含 了 三 个 整 型 数 的 向 量 。 


CUDA 在 gidDim 和 blockDim 上 使 用 了 dim3 向 量 类 型 。dim3 类 型 与 int3 一 样 ， 但 将 为 声明 的 变量 设置 为 1。 我 们 在 声明 执行 设 
置 时 将 使 用 dim3 类 型 。 


2.3 AE 


现在 你 已 经 掌握 了 开始 创建 一 个 拥有 使 用 了 CUDA 进 行 GPU 并 行 计算 的 优点 的 应 用 所 必需 的 工具 ， 我 们 将 在 第 3 章 中 开始 创 
建 CUDA 应 用 。 


24 ”推荐 项 目 


1. 去 CUDA Zone 注册 并 加 入 到 CUDA 开 上 友 者 中 (如 果 读 者 还 没有 这 样 做 的 话 ) 。 
2.WAwww.nvidia.com/object/nvision08 gpu_v_cpu.htm| 的 视频 ， 体 会 天 于 并 行 和 串 行 执行 的 有 趣 的 对 比 。 


3.12 (CUDA Programming Guide》 的 导论 部 分 ， 评 
Ushttp://docs.nvidia.com/cuda/pdf/CUDA C Programming Guide.pdf。 


4. 观 看 David Luebke 在 2011 年 GPU 技术 大 会 的 视频 “GPU Computing: Past, Present, and Future” 体 会 对 GPU 并 行 
计算 起 源 和 方向 的 有 趣 的 透视 。 (不 要 担心 那些 偶尔 不 熟悉 的 术语 ， 将 观看 这 个 视频 作为 一 个 获得 CUDA 术 语 的 机 会 。) 这 个 视 


频 详 见 : http://on-demand-gtc.gputechconf.com/content/includes/gtc/video/stream-david-luebke-june2011.html, 
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Bm ”从 循环 到 网 格 


现在 我 们 要 使 用 第 2 草 所 学 知识 将 第 1 草 和 附录 C 中 的 C 语 言 代码 进行 并 行 化 。 回 顾 我 们 创建 的 两 个 版 本 的 距离 计算 应 用 。 在 
dist_v1 中 我 们 使 用 一 个 for 循 环 来 计算 一 个 数组 的 距离 值 。 在 dist_v2 中 我 们 为 输出 值 创建 了 一 个 数组 然后 调用 
distanceArray () 万 法 来 计算 全 部 距离 值 的 数组 〈 同 样 是 使 用 一 个 for 循 环 串 行 的 计算 ) 。 本 章 会 使 用 CUDA 来 并 行 化 这 个 距离 
应 用 ， 并 行 化 的 方法 是 使 用 一 个 可 以 同时 执行 的 线程 网 格 来 蔡 换 循环 的 串 行 计算 。 


我 们 将 会 创建 、 编 译 并 执行 新 的 应 用 ， 但 是 重点 关注 使 用 CUDA 进 行 并 行 化 。 如 果 读 者 在 编译 并 执行 没有 CUDA 声 明 的 C 语 
言 程序 中 存在 问题 ， 请 参考 附录 C。 


3.1 ”并行 化 dist_v1 


这 是 首 个 探索 并 行 化 的 示例 ， 在 展示 完整 的 并 行 代码 之 前 ,我 们 要 一 步 步 地 讲述 如 何 从 dist_v1 的 代码 变化 到 并 行 化 版 本 
dist v1_cuda， 完 整 的 代码 参见 代码 清单 3.1。 读 者 需要 执行 以 下 的 基本 步骤 


1. 创 建 一 个 包含 kernel.cu 文 件 的 dist v1 cuda 工 程 。 
a. 在 Linux 下 ， 创 建 一 个 dist v1 _cuda 文 件 夹 并 在 其 中 新 建 一 个 kernel.cu 文 件 。 


b. 在 Visual Studio 中 ， 创 建 一 个 新 的 CUDA 7.5 运 行 时 项 目 ， 命 名 为 dist v1 cuda, 项 目 中 包含 一 个 kernel.cu 文 件 。 删 除 
kernel.cu 文 件 中 的 样 例 代码 。 


2. 将 dist_v1/main.cpp 中 的 代码 复制 并 粘贴 到 kernel.cu 文 件 中 。 按 照 如 下 过 程 修改 kernel.cu 代 码 : 
a. 删 除 #include<math.h>， 因 为 CUDA 内 联 文 件 已 经 包含 了 math.h。 加 入 #include<stdio.h> 使 程序 能 够 在 控制 台 输 出 。 


b. 在 目前 的 #define 字 段 下 ， 加 入 另 一 个 #define TPB 32， 来 声明 在 执行 我 们 的 核 消 数 中 将 作为 核 肖 数 执行 配置 中 线程 块 维 
度 的 数 大 小 。 


c. 拷 贝 整个 for 循 环 并 粘贴 在 main () 立 数 上 万 。 我 们 将 把 这 个 循环 编写 到 一 个 核 肖 数 的 定义 中 。 


d. 使 用 distanceKernel<<<N/TPB，TPB>>> (d out, ref, N) ZROH Amain () 为数 中 的 for 循 环 ， 调 用 中 包 合 
了 三 个 要 素 : 


1. 国 数 名 称 distanceKernel|。 


i 三 对 < > 符号 ， 其 中 包 合 了 执行 的 配置 参数 。 此 时 ， 我 们 设 定 N/TPB 个 线程 块 (2 个 ) 其 中 每 个 线程 块 包含 TPB 个 线程 (32 


个 ) a 
iii. 代码 清 单 中 还 包含 了 指向 输出 数组 的 指针 d_out， 参 考 地 址 ref 和 数组 长 度 N。 
e. 将 main () 函数 之 前 的 for 循 环 按照 如 下 步骤 转换 成 一 个 核 冰 数 : 
[. 使 用 由 如 下 内 容 组 成 的 核 函 数 声明 蔡 换 第 一 行 的 for 循 环 (0 中 的 所 有 内 容 ) : 
1. 标 识 符 _ global _ 
2. 返 回 类 型 void 
3. 函 数 名 distanceKernel 
4. 括 号 中 包含 了 使 用 逗号 分 隔 的 带 有 类 型 的 形 参 列表 (float*d out, float ref, int len) 
i. 在 { 的 第 一 行 中 输入 下 面 的 计算 公式 ， 式 中 使 用 核 函 数 的 内 建 线程 索引 和 维度 变量 计算 索引 i (用 来 代替 循环 中 现在 被 删除 


了 的 同名 索引 ) 。 


const int 1 = blockIdx.x*blockDim.x + threadIdx.x; 


iii. 将 左边 的 数组 out[] 修 改 为 qd_out[i]。 


iv. 在 人 的 最 后 一 行 中 输入 下 面 的 printf () 语句 : 


printf("i = 2d: dist from tf to TE 15 FE. n"; a, ret, X, 
d out [i]); 


f. 在 scale () 和 distance () 的 定义 前 添加 标识 符 _device 


g. 管 理 如 下 的 存储 : 


.在 main () 开始 前 ， 删 除 定义 out 数 组 的 语句 (此 处 不 需要 的 语句 ) ， 使 用 下 面 的 代码 创建 一 个 位 于 设备 上 的 可 以 存储 N 


个 浮 点 数 的 数组 d_out。 


iodt *d. Out; 
cudaMalloc(&d out, N*sizeof (float) ) ; 


i. {Emain () 国 数 的 return 语 句 上 方 ， 使 用 如 下 语句 释放 内 存 : 


cudaFree(d out); 


为 了 确保 所 有 的 语句 段 能 够 正确 组 合 在 一 起 ，dist_v1_cua/kernel.cu 文 件 的 完整 代码 如 代码 清单 3.1 所 示 。 


代码 清单 3.1 dist v1 cuda/kernel.cu 


1 #include <stdio.h> 

2 #define N 64 

3 #define TPB 32 

< 

5 device float scale(int i, int n) 

6 { 

7 return ((float)i)/(n - 1); 

8 } 

9 

10 device float distance(float x1, float x2) 

11 4 

L2 return sqrt ((x2 - x1)*(x2 - x1)); 

13 } 

14 

15 global void distanceKernel (float *d out, float ref, int len) 
16 { 

niy const int 1 = blockIdx.x*blockDim.x + threadIdx.x; 
18 const float x = scale(i, len}; 

19 d out[i] = distance(x, ref); 
20 printf("i = 2d: dist from %f to %f is %f.\n", i, ref, x, d out[i]); 
21 } 
22 
23 int main() 
24 { 
25 const float ref = 0.5f; 
26 
27 // Declare a pointer for an array of floats 
28 float *d out = 0: 
29 
30 // Allocate device memory to store the output array 
31 cudaMalloc(&d out, N*sizeof (float)}); 

32 
23 // Launch kernel to compute and store distance values 
34 distanceKernel<<<N/TPB, TPB>>>(d out, ref, N); 
35 
36 cudaFree(d_ out); // Free the memory 
a7 return 0; 
38 } 


在 执行 这 个 并 行 的 应 用 之 前 ， 有 几 个 需要 依次 给 出 的 评论 。 希 望 通 过 我 们 的 努力 能 够 让 读者 在 阅读 完整 的 代码 时 对 代码 的 所 
有 组 件 的 目的 和 意图 有 一 个 正确 的 理解 。 


我 们 也 想 要 提醒 读者 一 些 核 函 数 的 特殊 性 ， 因 为 它 是 我 们 使 用 CUDA 并 行 化 的 主要 工具 。 一 个 需要 注意 的 事实 是 核 国 数 ( 比 
如 distanceKernel) 在 设备 上 执行 ， 所 以 它 不 能 同 主机 端 返回 变量 ， 因 此 使 用 void 类 型 作为 返回 值 。 核 浮 数 可 以 访问 设备 内 存 ， 
但 是 不 能 访问 主机 内 存 ， 因 此 我 们 需要 使 用 cudaMalloc () 锐 数 (而 不 是 malloc 消 数 ) 为 设备 上 输出 数组 分 配 内 仔 ， 同 时 使 用 
d_out 命 名 ，d_ 作 为 一 个 便于 记忆 的 标志 (显然 不 是 强制 性 的 标志 ) 来 提醒 读者 d_out 是 一 个 设备 上 的 数组 。 最 后 ， 注 意 核 函数 
的 定义 束 如 同 我 们 只 在 单线 程 编程 一 样 进 行书 写 。 在 之 前 串 行 代码 的 循环 中 友 生 的 所 有 事情 现在 被 每 个 线程 所 对 应 的 i 所 接管 ， 
它 根 据 CUDA 为 每 个 线程 提供 的 系 引 和 维度 变量 来 获取 所 有 计算 网 格 中 的 数据 索引 。 


选择 执行 配置 

注意 ， 无 论 是 把 它 看 作 艺 术 还 是 科学 ， 选 择 合适 的 执行 配置 会 为 给 定 的 系统 提供 最 好 的 性 能 。 就 现在 来 说 ， 让 我 们 不 要 纠结 
于 细节 ， 只 要 注意 在 选择 每 个 线程 块 的 线程 数目 时 保证 是 32 的 整数 倍 即 可 ， 这 样 可 以 对 应 每 个 SM 中 的 CUDA 核 心 数 目 。 系 统 支 
持 的 线程 块 和 线程 网 格 中 也 有 数量 的 限制 。 在 《CUDA C Programming Guide» 本 中 可 以 找到 记录 这 个 限制 的 表格 。 一 个 特别 重要 


的 限制 是 每 个 线程 块 不 能 包含 超过 1024 的 线程 。 因 为 线程 网 格 可 能 包括 超过 1024 的 总 线程 ， 读 者 应 该 尽量 在 启动 核 函 数 时 设置 大 


量 的 线程 块 ， 并 且 制 定 一 些 执行 配置 的 实验 计划 ， 来 探究 在 读者 的 应 用 和 设备 上 的 最 优 执行 方案 。 对 于 较 大 的 问题 ， 测 试 每 个 线 


程 块 的 线程 数目 的 合理 值 包括 128、256 和 512。 
执行 dist v1 cuda 


当 编 码 完 成 后 ， 是 时 候 来 编译 和 执行 这 个 应 用 了 。 由 于 代码 中 已 经 包含 了 核 亢 数 加 载 (不 是 C/C++ 的 一 部 分 ) ， 因 此 我 们 
需要 调用 NVIDIA C 编 译 器 一 一 nvcc。 在 Windows 下 ，Visual Studio 识 别 这 种 扩展 并 且 自 动 调用 nvcc 编 译 器 ， 直 接 按 下 F7 来 构 
建 这 个 应 用 。 在 Linux 下 ， 使 用 代码 清单 3.2 中 的 Makefile 文 件 指示 编译 器 使 用 nvcc 编 译 器 来 构建 这 个 程序 。 


代码 清单 3.2 dist v1 cuda/Makefile 
Nvcc = /usr/local/cuda/bin/nvcc 
NVCC FLAGS = -g -G -Xcompiler -Wall 


mMain.exe: kernel.cu 
$(NVCC) $ (NVCC FLAGS) $^ -o $@ 


注意 在 代码 清单 3.1 中 ， 我 们 在 第 1 行 里 包括 了 标准 的 输入 和 输出 ， 并 且 在 第 20 行 加 入 了 一 个 printf () 语句 来 将 结果 打印 在 
屏幕 上 ， 因 此 现在 你 可 以 执行 这 个 应 用 然后 在 控制 台中 观察 输出 结果 。 检 验 输出 结果 和 那些 由 串 行 应 用 dist_v1 和 dist_v2 运 算 的 


+A Sao 
ZR AeA, 


KF printf () Ba 


BRZE, WIA) F20MGPURK LH AMD Ppi () 函数 的 。 如 果 你 对 printf () 函数 不 熟悉 (或 者 对 
输出 流 中 加 入 字符 串 更 感 兴趣 ， 更 倾向 于 使 用 C++ 中 的 cout) ， 请 使 用 你 所 偏好 的 C/C++ 语法 。 我 们 这 么 做 是 为 了 方便 ,但 是 值 
得 注意 的 是 printf () 不 应 被 考虑 作为 一 个 普遍 使 用 的 debug 工 具 。 


关于 debugging 的 更 多 信息 


Visual Studio 或 者 gdb 提 供 的 常见 的 C/C++ 调试 工具 不 适用 于 显示 设备 内 存 中 的 数值 ， 有 一 些 CUDA 专 用 的 调试 工具 可 以 用 来 
达到 这 样 的 目的 。 关 于 CUDA 调 试 工具 的 讨论 ， 包 括 观察 存储 在 设备 内 存 中 的 数值 的 方法 请 参见 附录 DD。 


可 能 你 注意 到 的 第 一 件 事 是 输出 不 一 定 是 以 索引 顺序 从 0 到 63 依 次 输出 的 。 这 是 捉 行 和 并 行 应 用 的 一 个 根本 区 别 。 在 捉 行 应 
用 中 ， 计 算 在 一 个 循环 中 按照 一 定 先后 顺序 执行 。 在 CUDA 实 现 的 并 行 中 ， 我 们 放弃 了 对 计算 顺序 的 部 分 控制 而 获得 由 成 百 上 干 
个 处 理 器 并 行 计算 提供 的 计算 加 速 。 


SAS (也 是 最 重要 的 事 ) 是 检查 利用 并 行 计 算得 到 的 距离 值 是 否 与 应 用 dist_ v1 和 dist_v2 计 算得 到 的 值 一 致 。 总 而 言 
之 ， 如 果 产 生 了 不 正确 的 结果 ， 那 么 加 速 再 多 也 是 坚 无 意义 的 。 


3.2 并行 化 dist_v2 


第 一 个 并 行 化 的 距离 应 用 dist_v1_cuda 不 具有 充分 的 代表 性 ， 因 为 它 并 没有 涉及 大 量 输入 数据 。 现 在 我 们 已 经 准备 好 了 并 行 
化 第 二 个 距离 应 用 dist_v2， 这 是 一 个 更 加 典型 的 例子 ， 涉 及 对 一 个 输入 数组 的 操作 。 将 一 个 数组 数据 传递 到 GPU 的 策略 并 不 复 


杂 : 


1. 在 设备 内 存 (GPU) 上 创建 一 个 数组 ， 类 型 和 大 小 与 主机 内 存 (CPU) 上 的 输入 数组 一 致 。 


2. 在 设备 内 存 上 创建 一 个 内 存 用 来 存储 输出 的 数据 。 (你 可 以 选择 使 用 复 用 输入 数组 的 办 法 存储 输出 ， 但 是 目前 我 们 先 将 输 


入 和 输出 分 开 考虑 。) 
3. 将 主机 端的 输入 数组 复制 到 设备 内 存 上 对 应 的 数组 上 。 
4. 局 动 核 溺 数 进行 计算 并 将 输出 值 存储 在 设备 内 存 上 的 输出 数组 中 。 
5. 将 设备 内 存 中 的 输出 数组 复制 回 主 机 内 存 中 的 对 应 数组 上 。 


6. 释 放 设备 上 的 数组 内 存 。 


上 面 列 出 的 步骤 很 适合 dist_v2 的 组 织 万 式 ， 其 中 包括 了 一 个 main.cpp 文 件 ( 包 合 了 main () RARI) ， 


一 个 单独 的 文 


件 (名 为 aux functions.cpp) 来 包含 定义 辅助 功能 的 代码 ， 一 个 头 文 件 (名 为 aux functions.h) 来 包含 像 distanceArray () 


久 效 一 样 的 原型 冰 数 ， 使 其 可 以 在 其 他 文件 中 韦 “ 看 见 ” 并 调用 〈 例 如 main.cpp 文 件 ) 。 


因为 步骤 4 中 涉及 CUDA 核 函数 调用 ， 我 们 将 aux_functions.cppP (及 其 对 应 的 头 文件 ) 著 损 为 kernel.cu (及 其 对 应 的 头 文 
件 一 一 kernel.h) 。 完 整 的 代码 在 代码 清单 3.3、 代 码 清单 3.4 以 及 代码 清单 3.5 中 显示 ， 代 码 清单 3.6 是 Makefile 文 件 。 


代码 清单 3.3 dist v2_ cuda/main.cpp 


1 #include "kernel.h" 

2 #include <stdlib.h> 

3 #define N 64 

4 

5 float scale(int i, int n) 

6 { 

7 return ((float)i)/(n - 1); 

8 | 

9 

10 int main() 

i. 4 

12 const float ref = 0.5E£; 

13 

14 float *in = (float*)calloc(N, sizeof (float)); 
15 float *out = (float*)calloc(N, sizeof (float)); 
16 

17 // Compute scaled input values 

18 for (int i = 0; 1 < N; ++i) 

19 { 

20 in[i] = scale(i, N); 

21 } 

22 

23 // Compute distances for the entire array 
24 distanceArray (out, in, ref, N); 

aa 
26 free(in); 
a7 free (out); 
28 return 0; 
29 } 


Dist v2 cuda/main.cpp 的 代码 与 dist_ v2/main.cpp 几 乎 一 样 。 不 同 之 处 包括 把 scale () 移 到 main.cpp 中 ， 并 引用 


kernel.h 来 代 蔡 原来 的 aux functions.h 文 件 。 最 大 的 变化 友 生 在 kernel.cu 文 件 中 新 定义 的 distanceArray () È 


代码 清单 3.4 dist v2_cuda/kernel.cu 


函数 中 。 


#include "kernel.h" 
#include <stdio.h> 
#define TPB 32 


. device __ 
float distance(float x1, float x2) 


{ 


return sqrt((x2 - x1)*(x2 - x1)); 


} 


i Eel global __ 
12 void distanceKernel (float *d out, float *d in, float ref) 


0 人 OW OP 


tO 


13 { 

14 const int i = blockIdx.x*blockDim.x + threadIdx.x; 

15 const float x = d in[i]; 

16 d out[i] = distance(x, ref); 

17 print£(*i = 2d: dist from IE to SE is %£.\n", i, ref, x, ad out [i]); 
18 } 

19 

20 void distanceArray(float *out, float *in, float ref, int len) 

21 { 

22 // Declare pointers to device arrays 


23 Float *d in = 0; 
24 float *d out = 0; 


26 // Allocate memory for device arrays 
27 cudaMalloc(&d in, len*sizeof(float)); 
28 cudaMalloc(&d out, len*sizeof (float) ) ; 


29 

30 // Copy input data from host to device 

31 cudaMemcpy(d_in, in, len*sizeof(float), cudaMemcpyHostToDevice) ; 
32 

33 // Launch kernel to compute and store distance values 

34 distanceKernel<<<len/TPB, TPB>>>(d out, d in, ref); 

ao 


36 // Copy results from device to host 
3 了 cudaMemcpy (out, d out, len*sizeof (float), cudaMemcpyDeviceToHost) ; 


38 
39 // Free the memory allocated for device arrays 
40 cudaFree(d_in) ; 
41 cudaFree(d out); 
42 } 
这 里 需要 强调 几 个 要 后: 


1.distanceKernel () 尔 数 与 dist v1 cuda/kernel.cu 中 的 版 本 有 明显 的 不 同 。 这 里 ， 形 参 包含 了 一 个 指针 d_ in， 指向 一 个 
已 经 锌 构建 好 的 输入 数组 。 


2. 对 于 distanceArray () 新 的 定义 执行 了 上 面 所 列 出 的 全 部 5 个 步骤 。 设 备 端的 输入 输出 数组 在 第 23~28 行 代码 中 定义 ; 输 
入 数据 从 主机 端 复制 到 设备 端 在 第 31 行 执行 ， 从 核 肖 数 调用 并 获取 GPU 并 行 化 的 执行 结果 在 第 43 行 ; 输出 的 距离 值 从 设备 新 复 
制 到 主机 端 在 第 37 行 ; 设备 端的 内 存 释放 在 第 40 行 和 第 41 行 。 


3. 函 数 distanceArray () 调用 核 肖 数 distance-Kernel () 。 这 样 的 立 数 被 称 为 封 共 (warpper) 或 者 局 动 消 数 


(launcher) 。 


明确 核 函 数 的 执行 设置 : 每 个 线程 块 拥 有 TPB 个 线程 ， 然 后 一 共有 N/TPB 个 线程 块 (NN 的 值 实际 是 在 进行 函数 调用 时 通过 长 
度 len 传 入 的 ) 。 我 们 已 经 使 用 了 #define 来 设置 TPB=32 和 N=64， 因 此 本 次 一 共 需 要 两 个 包含 了 32 个 线程 的 线程 块 ， 就 像 我 们 之 


前 使 用 的 一 样 ， 但 是 记 住 存储 这 些 维度 的 变量 是 一 个 整 型 的 类 型 ,使 用 整 型 数 的 相关 运算 。 如 果 你 设置 N=65， 那 么 你 仍然 会 得 


到 2 个 〈65/32) 包含 32 个 线程 的 线程 块 ， 数 组 的 最 后 一 个 输入 不 会 被 计算 到 ， 因 为 没有 与 它 对 应 的 线程 及 数据 索引 。 有 一 个 简单 
的 办 法 可 以 保证 线程 网 格 和 覆盖 到 整个 数组 长 度 ， 就 是 声明 线程 块 数目 从 N/TPB 到 (N+TPB-1) /TPB， 以 此 来 保证 线程 块 数目 被 
取 整 。 这 也 意味 着 网 格 的 索引 可 以 超出 最 大 的 数组 索引 ， 那 么 我 们 就 需要 在 核 函 数 中 加 入 一 个 控制 语 名 来 防止 执行 中 可 能 超出 数 
组 范围 并 引发 段 冲 突 错误 。 在 这 里 ， 我 们 仅 继 续 考 虑 一 个 简单 的 版 本 ， 但 是 我 们 会 在 后 面 的 应 用 中 加 入 更 加 可 靠 的 机 制 。 


注意 线程 网 格 和 线程 块 的 维度 ， 实 际 是 三 维 的 类 型 dm3。 未 指明 的 分 量 默 认 设 为 1。 执 行 配置 <<<len/TPB，TPB>>> 将 被 解 
释 为 <<dim3 (len/TPB, 1, 1) , dim3 (TPB, 1, 1) >>>。 当 我 们 使 用 更 大 维度 的 网 格 时 我 们 将 会 使 用 一 些 有 意义 的 .y 的 值 
和 .z 的 值 。 


代码 清单 3.5 dist v2 cuda/kernel.h 


1 #ifndef KERNEL H 

2 #define KERNEL H 

3 

4 // Kernel wrapper for computing array of distance values 

5 void distanceArray(float *out, float *in, float ref, int len); 
6 

7 #endif 


代码 清单 3.6 dist v2 _cuda/Makefile 


Nvcc = /usr/local/cuda/bin/nvec 
NVCC FLAGS = -g -G -Xcompiler -Wall 


all: main.exe 


main.exe: main.o kernel.o 
S(NVCC) $^ -o $@ 


wow nw»irerwWwNnNFEF 


main.o: main.cpp kernel.h 


10 $§(NVCC) $(NVCC_FLAGS) -c $< -o $@ 
11 

12 kernel.o: kernel.cu kernel.h 

13  $(NVCC) $(NVCC FLAGS) -c $< -o $@ 


读者 可 以 用 这 些 现成 的 代码 编译 并 执行 dist_v2_cuda。 验 证 这 些 距 离 的 值 是 否 被 正确 计算 ， 并 且 留 意 一 下 所 有 关键 的 CUDA 
代码 都 包含 在 kernel.cu 文 件 中 。 对 比 distanceArray () 函数 在 dist v2/aux functions.h 和 dist v2 cuda/kernel.h 中 的 原型 。 注 
意 这 些 原 型 是 完全 相同 的 ， 但 是 函数 的 定义 却 被 改变 了 。 用 软件 开 有 的 术语 来 襄 ， 我 们 改变 了 实现 但 是 保持 接口 不 变 。 这 种 方式 
为 已 有 程序 开发 支持 CUDA 的 版 本 提供 了 解决 思路 。 


3.3 ”标准 操作 流程 


看 过 以 上 典型 的 程序 流程 ， 我 们 来 分 析 一 下 流程 哪些 部 分 是 CUDA 带 来 的 开销 ， 哪 些 能 带 来 收益 。 开 销 应 该 是 十 分 明显 的 : 
创建 镜像 数组 并 且 在 设备 端 和 主机 端 传输 数据 ， 这 些 都 是 在 串 行 计算 中 不 需要 进行 的 额外 工作 。 为 了 抵消 这 些 内 存 操作 的 “额外 
开销 ”， 我 们 能 从 GPU 成 皇上 干 的 处 理 器 核心 上 得 到 运算 上 的 收益 。 这 些 讨论 直接 引出 了 一 些 使 用 CUDA 的 推荐 策略 : 


一 次 性 将 你 的 数据 复制 到 设备 端 。 
- 启动 一 个 执行 了 大 量 工 作 的 核 函 数 (因此 从 大 量 并 行 化 中 获得 的 收益 将 大 大 超出 内 存 传输 的 代价 ) 。 
. 只 将 结果 复制 回 主机 端 一 次 。 


这 些 并 不 是 一 成 不 变 的 ,但 是 它们 提供 了 一 些 有 用 的 规划。 在 这 里 ， 你 拥有 执行 这 个 典型 工作 流 的 所 有 工具 。 然 而 ， 在 我 们 
接触 更 复杂 问题 之 前 ， 让 我 们 快速 浏览 一 些 可 以 简化 开 友 流程 的 其 他 可 选 方案 。 


3.4 ”简化 操作 流程 


上 面 所 述 的 标准 操作 流 是 主流 的 工作 方式 ， 然 而 其 中 的 部 分 过 于 死板 和 烦琐 ， 因 此 一 些 NVIDIA 专 家 一 起 努力 提供 了 一 个 可 
蔡 代 的 流 陈 方案 ， 叫 作 统一 内 存 (unified memory) 。 这 个 方法 打破 了 主机 内 存 和 设备 内 存 的 围墙 ， 因 此 你 可 以 只 用 一 个 可 以 
从 主机 并 和 设备 端 共 同 访问 的 数组 (至 少 看 起 来 是 这 样 的 ) 。 


35 ” ”本章 小 结 


在 本 章 中 ， 我 们 使 用 CUDA 依 次 创建 了 dist v1 与 dist_ v2 的 并 行 化 版 本 一 一 dist v1 cuda 与 dist v2 cuda., 
dist_v2_cuda 为 CUDA 应 用 标准 工作 流程 提供 范例 。 下 面 是 一 些 简明 的 内 容 回 顾 (CUDA 应 用 包括 的 大 致 步 又) : 

. 创建 主机 端 输入 和 输出 的 数组 ， 为 输入 数据 和 结果 提供 存储 空间 。 

-在 设备 端 上 为 类 似 的 输入 和 输出 数组 声明 指针 并 分 配 内 存 。 

+ 将 输入 数据 从 主机 端 复制 到 设备 端 对 应 的 数组 上 。 

+ 层 动 一 个 核 函 数 在 设备 端 上 进行 计算 并 将 结果 写 入 设备 端的 输出 数组 。 

: 将 结果 从 设备 端的 数组 复制 到 主机 端 对 应 的 数组 上 。 

` 释放 为 数组 分 配 的 内 存 。 


蔡 喜 你 ， 你 已 经 迈 入 了 大 规模 并 行 计算 的 大 门 。 现 在 你 应 该 能 够 开始 修改 一 些 样 例 应 用 和 CUDA 样 例 来 创建 你 目 己 的 CUDA 
应 用 了 。 注 意 我 们 用 “ 需 知 ” (Need-to-know) 的 理念 来 尽量 快速 和 简明 地 完成 CUDA 的 入 门 部 分 。 我 们 实现 了 标准 的 CUDA 
Be Fitts 〈 其 中 包括 在 主机 问 和 设备 闯 分 别 仓储 一 份 数据 以 及 显 陈 的 数据 传输 的 函数 调用 ) ， 也 实现 了 使 用 统一 内 存 这 一 简便 方 
法 来 让 开 友 方法 变 得 尽 可 能 简单 。 


虽然 我 们 快速 实现 了 最 初 希望 利用 CUDA 能 力 的 目标 ， 但 是 值得 注意 的 是 我 们 跳 过 了 一 些 应 该 考虑 的 重要 问题 (错误 处 理 、 
CUDA 调 试 、 计 时 以 及 性 能 分 析 等 ) ， 当 你 开 友 较 大 的 CUDA 项 目 时 。 这 些 是 你 需要 (至 少 是 想 要 ) 知道 的 。 这 些 主题 将 在 附录 
D 中 讨论 ， 读 者 现在 已 经 掌握 了 阅读 它们 的 背景 知识 。 在 这 里 ， 我 们 推荐 读者 去 进行 下 面 章 证 的 学 习 ， 并 在 需要 掌握 关于 错误 处 
理 、 调 试 、 计 时 或 者 性 能 分 析 的 相关 细节 知识 时 ， 再 去 参阅 附录 DD 中 一 些 实践 技巧 的 内 容 。 


3.6 ”推行 项 目 


1. 改 变 距 离 数组 中 的 元 素数 目 并 进行 实验 。 当 你 将 数目 N 定 义 成 128、1024、63、65 的 时 候 是 否 遇 到 了 一 些 问题 ? 


2. 计 算 包 含 4096 个 距离 的 距离 数组 并 尝试 改变 TPB。 你 可 以 在 系统 上 运行 的 最 大 (和 最 小 ) 线程 块 大 小 是 多 大 ? 注意 ， 这 个 
问题 的 答案 依赖 于 你 的 GPU 设备 的 计算 能 力 。 参 考 《CUDA C Programming Guide》[1] 来 检查 你 的 结果 是 否 和 其 中 的 “每 个 线 
程 块 最 大 线程 数目 ”的 表格 相同 。 
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第 4 草 ” 二 维 网 格 与 交互 了 式 图 形 


本 章 天 注 如 何 将 CUDA 的 并 行 模型 目 然 地 扩展 到 二 维 空间 (2D) 。 我 们 首先 来 学 习 关于 启动 二 维 计算 网 格 的 基础 知识 ， 并 
且 创 造 一 个 内 核 骨 架 。 你 可 以 同 这 个 内 核 骨 架 加 入 要 想 的 功能 来 计算 一 个 二 维 网 格 中 的 数据 。 然 后 ， 为 了 详细 说 明 内 核 程 序 ， 我 
们 创建 一 个 应 用 程序 dist_2d， 这 个 程序 用 来 计算 平面 上 一 个 参考 点 到 二 维 网 格 点 阵 (点 阵 中 的 成 员 规格 一 至 中 每 个 成 员 的 距 
离 。 通 过 将 网 格 中 的 点 对 应 为 图 像 中 的 像素 ,我 们 可 以 计算 出 一 幅 新 图 像 ， 图 像 中 每 个 像素 的 灰 度 值 以 距离 值 为 基础 。 


生成 图 像 数 据 时 ， 最 好 利用 CUDA 的 图 形 互 操作 能 力 (简称 为 图 形 互 操 作 ) 。 图 形 互 操作 支持 与 标准 图 形 应 用 程序 接口 
(API) 间 的 协作 ， 包 括 Direct3Dl1OpenGLI 针 。 我 们 将 使 用 OpenGL， 并 且 坚 持 够 用 就 好 的 原则 ， 只 介绍 我 们 需要 知道 的 方 
法 。 因 此 ， 这 里 将 只 提供 OpenGL 的 一 些 必 要 的 东西 ， 用 来 以 实时 交互 万 式 在 屏幕 上 显示 你 的 结果 。 


到 本 章 结 束 时 ， 你 将 会 成 功 运行 一 个 flashlight (FES) 应 用 程序 ， 你 可 以 交互 式 地 展示 一 张 阴 影 图 像 ， 可 以 通过 移动 鼠 
标 或 者 键盘 输入 来 移动 参考 点 ， 而 阴影 由 到 参考 点 的 距离 控制 。 除 此 之 外 ， 你 还 会 成 功 运行 一 个 stability (稳定 性 ) 应 用 程序 ， 
交互 式 地 显示 成 百 上 干 个 振子 的 动态 运动 的 数值 模拟 结果 。 这 些 实验 可 以 引领 你 开始 创造 属于 你 自己 的 CUDA 交 互 式 应 用 程序 ， 
并 帮助 你 在 实践 中 抓 住 要 点 ， 把 握 方向 。 


41 启动 二 维 计算 网 格 


了 这里， 我们 扩展 之 前 涉及 的 一 维 数组 的 例子 (KE RAMU HERE) ， 并 且 进 一 步 考 虑 点 均匀 地 分 布 在 二 维 平 
面 的 一 块 空 间 中 的 应 用 程序 。 我 们 会 遇 到 其 他 一 些 适 用 于 这 种 方案 的 应 用 程序 〈( 例 如， 模拟 热传导 ) ， 其 中 ， 数 字 图 像 处 理 是 最 
常见 (可 能 也 是 最 和 直观) 的 示例 。 利 用 这 个 直观 的 联系 ， 我 们 将 通过 图 像 处 理 林 语 来 介绍 这 些 概念 ， 所 有 的 概念 都 可 以 直接 迁移 
到 其 他 应 用 程序 中 。 


一 幅 数 字 栅 格 图 像 由 一 组 图 像 元 素 或 像素 组 成 。 这 些 像 素 被 安放 在 一 个 统一 的 二 维和 矩阵 网 格 中 ， 其 中 ， 每 个 像素 都 具有 一 个 
量化 的 强度 值 。 具 体 来 说 ， 我 们 将 壳 度 、 高 度 分 别 用 x、y 坐 标 表 示 ， 并 且 将 图 像 定义 为 完 W 像 素 ， 高 H 像 素 。 如 果 在 每 个 像素 中 
存储 的 量化 强度 值 是 一 个 数字 ， 那 么 可 以 将 图 像 数据 用 一 个 WxH 大 小 的 矩阵 来 表示 。 


在 CUDA 中 从 一 维 问题 过 渡 到 二 维 问 题 时 ， 我 想 你 一 定 会 感到 很 惊讶 ， 因 为 仅仅 需要 很 少 的 调整 天 可 以 做 到 这 种 转变 。 在 一 
维 中 ， 我 们 指定 线程 块 和 网 格 的 大 小 为 整数 ， 并 且 根 据 公 陈 ， 利 用 blockDim.x、blockldx.x 和 threadldx.x 计 算出 系 引 值 i。 


int 1 = blockIdx.x*blockDim.x + threadIdx.x; 


这 里 ， 我 们 重新 诠释 表达 陈 的 右边 并 定义 为 一 个 新 率 引 c。 ARCE MRAM EIS (SRM AmE —ME 
素 行 时 ，c 从 最 小 值 0， 增 大 到 最 大 值 W-1。) 我 们 还 引入 了 一 个 泰 引 r 来 标记 像素 的 行 厅 3 引 CEERIMOZIH-1) 。 行 泰 引 的 计算 和 
列 泰 引 一 样 ， 但 是 使 用 “.y” ( 代 奉 了 列 泰 引 中 的 “.x”) ， 所 以 列 索 引 和 行 索引 的 计算 如 下 : 


blockIdx.x*blockDim.x + threadIdx.x; 
blockiIdx.y*blockDim.y + threadIdx.y; 


Int. © 
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为 了 使 数据 仓储 和 传输 更 加 简单 ， 我 们 继续 在 一 个 “局 平 的 ”一 维 数 组 中 存储 和 传输 数据 。 因 此 ， 我 们 需要 多 用 一 个 新 整 型 
变量 来 率 引 一 维 数组 。 我 们 将 这 个 变量 叫 作 i。 注 意 ，i 在 这 里 的 作用 与 一 维 数组 中 一 致 ， 但 是 在 其 他 地 方 (包括 CUDA 样 例 
中 ) ， 你 将 看 到 一 些 命名 为 dx、flatidx 和 offset 的 变量 这 引 一 维 数组 。 我 们 在 一 维 数组 中 是 以 行为 主 序 来 存储 算 阵 元 素 ， 也 束 
是 说 ， 从 和 矩阵 第 0 行 开始 存储 数据 ， 然 后 存储 第 1 行 的 数据 ， 以 此 类 推 一 一 因此 ， 一 维 数组 中 过 引 i 的 计算 如 下 : 


int 1 = r*w + C; 


为 了 摘 述 一 个 可 以 直观 对 应 一 个 图 像 (或 矩阵 ， 或 者 其 他 常规 二 维 离 散 化 表示 ) 的 二 维 计 算 网 格 ， 我 们 用 含有 两 个 特殊 成 员 
的 dim3 变 量 指定 线程 块 和 网 格 的 大 小 。 回 忆 一 下 ， 在 一 次 内 核 调用 中 ， 包 含 在 3 对 尖 括 号 内 的 1 个 数值 会 看 成 是 一 个 dim3 变 量 中 
的 .x 成 员 ， 而 未 指定 的 .y 和 .z 成 员 取 默认 值 1。 在 此 处 的 二 维 空间 中 ， 我 们 指定 .x 和 .y 成 员 。dim3 中 的 .z 成 员 〈 人 在 这 里 取 默 认 值 1) 
将 在 我 们 开始 学 习 三 维 网 格 时 友 挥 作用 (参见 第 7 章 ) 。 


话 不 多 讲 ， 我 们 将 安排 一 些 必 要 的 语法 学 习 ， 然 后 直接 开始 使 用 一 个 二 维 网 格 进行 像素 值 的 并 行 计算 。 


既然 能 构造 产生 图 像 数据 的 应 用 程序 ， 那 么 我 们 融 能 显示 那些 图 像 并 探索 实时 进行 CUDA 的 最 大 并 行 化 可 以 让 我 们 做 到 什 
， 这 是 非常 有 意义 的 事 。 


N 


实时 图 像 交 互 涉及 CUDA 为 交互 提供 的 一 个 标准 图 形 包 。 我 们 将 使 用 OpenGL， 它 可 能 是 (或 者 说 已 经 是 ) 许多 书籍 的 主 
题 上 ，4,，?， 因 此 我 们 会 采用 “ 需 知 ”的 处 理 思路 。 我 们 仅仅 介绍 使 用 DpenGL 来 显示 单一 纹理 矩形 的 必 备 知识 ， 并 且 提供 少量 
代码 实例 ， 这 些 实例 通过 使 用 OpenGL 实 用 工具 包 (GLUT) 来 显示 如 何 通过 键盘 和 鼠标 控制 交互 。 基 本 思想 是 ， 通 过 和 矩形 提供 
了 突 探 应 用 程序 世界 的 一 个 窗口 ， 并 且 ， 你 可 以 使 用 CUDA， 根 据 你 想 让 用 户 看 到 的 场景 来 计算 像素 的 阴影 值 。 

CUDA/OpenG[ 的 互 操作 提供 了 交互 式 的 控制 ， 并 且 ， 像 显示 的 矩形 纹理 一 样 ， 实 时 显示 变化 的 场景 或者， 更 准确 地 说 ， 其 
刷新 速率 可 以 和 ~ 60Hz 刷 新 速率 的 典型 现代 视觉 显示 系统 相 比 ) 。 


这 里 我 们 给 出 一 个 示例 应 用 程序 的 代码 。 这 个 应 用 程序 可 以 实现 打开 一 个 图 像 窗口 并 且 交 互 式 地 显示 图 像 ， 其 中 图 像 元 素 值 
源 目 到 参考 点 的 距离 。 我 们 可 以 使 用 鼠标 或 者 键盘 交互 式 地 改变 参考 点 位 置 。 我 们 把 这 个 应 用 程序 命名 为 flashlight (手电 
和 位) ， 因 为 它 产 生 了 一 个 可 移动 的 光圈 ， 并 且 越 远离 “ 光 上 后 ”中 心 ， 光 强度 束 越 弱 。 图 4.1 展 示 了 这 个 应 用 程序 运行 后 的 截屏 
Z. 


tashight cistance image display app 


图 4.1 应 用 程序 运行 后 的 交互 式 光 点 


整个 应 用 程序 少 于 200 行 代码 ， 我 们 把 代码 组 织 成 三 个 文件 : 


main.cpp 包 含 CUDA/OpenGL 建 立 和 互 操作 的 基本 要 素 。 包 含 大 概 100 行 代码 ( 约 为 总 数 的 一 半 ) ， 当 我 们 对 其 内 容 进行 简 
要 解释 后 ， 你 应 该 有 能 力 VAflashlight (FEH) 为 模板 ， 对 main.cpp 做 少量 改动 后 创造 出 属于 自己 的 应 用 程序 。 


.ketnel.cu 包 含 必 要 的 CUDA 人 代码， 包括 上 面 描述 过 的 clip () ak, kernel-Launcher () SA CN FRAG HR (这 里 


ZédistanceKernel () ) 的 定义 ， 这 个 内 核 函 数 必须 将 输入 写 入 到 一 个 uchar4 的 数组 中 。 


- interactions.h 定 义 了 回调 水 数 keyboard () ~ mouseMove () 和 mouseDrag () 来 指定 系统 如 何 应 答 输 入 。 当 我 们 浏览 整个 
代码 时 ， 最 重要 的 是 你 能 够 以 flashlight (FEA) 为 模板 来 快速 创造 出 你 自己 的 应 用 程序 ， 仅 仅 需 要 以 下 几 步 : 


1. 通 过 对 Linux 下 代码 目录 的 复制 ， 或 者 通过 在 Windows 下 的 Visual studio 创建 一 个 以 flashlight (FE) 为 模板 的 新 工 


2. 编 辑 内 核 消 数 来 产生 你 想 要 显示 的 数据 。 
3. 在 interactions.h 中 编辑 回调 了 销 数 来 指定 你 的 应 用 程序 应 该 如 何 应 答 键 盘 和 鼠标 的 输入 ， 并 且 编 辑 printinstructions () 


来 为 用 户 的 交互 定制 指令 。 
4. 除 了 以 上 这 些 步 又 ， 你 还 可 以 在 interactions.h 中 编辑 #define TITLE_STRING 声 明 来 在 图 像 窗 口 的 标题 栏 中 定制 应 用 程序 


NaF. 
代码 清单 4.5 至 代码 清单 4.8 展 示 了 用 CUDA/OpenGL 的 互 操作 在 你 的 屏幕 上 显示 距离 图 像 的 所 有 必需 代码 ， 我 们 还 将 市 你 熟 


悉 一 些 必 要 的 代码 而 不 过 分 在 意 过 多 的 细节 。 


代码 清单 4.5 flashlight/main.cpp 


ON HUM PWD BP 


46 
47 
48 
49 
50 


#include "kernel.h" 

#include <stdio.h> 

#include <stdlib.h> 

#ifdef WIN32 

#define WINDOWS LEAN AND MEAN 
#define NOMINMAX 

#include <windows.h> 

#endif 

#ifdef APPLE _ 

#include <GLUT/glut.h> 

#else 

#include <GL/glew.h> 
#include <GL/freeglut.h> 
#endif 

#include <cuda_runtime.h> 
#include <cuda_gl_ interop.h> 
#include "interactions.h" 


// texture and pixel objects 

GLuint pbo = 0; // OpenGL pixel buffer object 

GLuint tex = 0; // OpenGL texture object 

struct cudaGraphicsResource *cuda_pbo_ resource; 

void render() { 
uchar4 *d_out = 0; 
cudaGraphicsMapResources(1, &cuda_pbo resource, 0); 
cudaGraphicsResourceGetMappedPointer((void **)&d_out, NULL, 

cuda pbo resource) ; 

kernelLauncher(d out, W, H, loc); 
cudaGraphicsUnmapResources(1, &cuda_pbo resource, 0); 

} 

void drawTexture() { 
glTexImage2D(GL TEXTURE 2D, 0, GL RGBA, W, H, 0, GL RGBA, 

GL UNSIGNED BYTE, NULL); 

glEnable (GL_TEXTURE_2D); 
glBegin(GL QUADS) ; 
glTexCoord2£(0.0f, 0.0f); glVertex2f(0, 0); 
glTexCoord2£(0.0f, 1.0f); glVertex2f£(0, H); 
glTexCoord2f£(1.0f, 1.0f); glVertex2f(W, H); 
glTexCoord2£(1.0f, 0.0f); glVertex2f(W, 0); 
glEnd()j; 
glDisable (GL TEXTURE 2D); 

} 

void display() { 


render (); 
drawTexture() ; 
glutSwapBuffers()j; 


} 


52 void initGLUT(int *argc, char **argv) { 

53 glutinit (argc, argv); 

54 glutInitDisplayMode (GLUT RGBA | GLUT DOUBLE) ; 
55 glutInitWindowSize(W, H); 

56 glutCreateWindow (TITLE STRING) ; 

57 #ifndef _ APPLE _ 

58 glewlInit (); 

59 #endif 

60 } 


62 void initPixelBuffer() { 

63 glGenBuffers(1, &pbo); 

64 glBindBuffer (GL PIXEL UNPACK BUFFER, pbo); 

65 glBufferData (GL PIXEL UNPACK BUFFER, 4*W*H*sizeof(GLubyte), 0, 
66 GL STREAM DRAW) ; 

67 glGenTextures(1, &tex) ; 

68 glBindTexture(GL TEXTURE 2D, tex); 

69 glTexParameteri(GL TEXTURE 2D, GL TEXTURE MIN FILTER, GL NEAREST); 
70 cudaGraphicsGLRegisterBuffer (&cuda_pbo resource, pbo, 

71 cudaGraphicsMapFlagsWriteDiscard) ; 
72 } 


74 void exitfunc() { 
75 if (pbo) { 


76 cudaGraphicsUnregisterResource(cuda pbo resource); 
17 glDeleteBuffers(1, &pbo) ; 

78 glDeleteTextures(1, &tex); 

79 } 

80 } 

81 

82 int main(int argc, char** argv) { 

83 printInstructions() ; 


84 initGLUT(&arge, argv); 

85 gluOrtho2D(0, W, H, 0); 

86 glutKeyboardFunc (keyboard) ; 

87 glutSpecialFunc (handleSpecialKeypress) ; 
88 glut PassiveMotionFunc (mouseMove) ; 

89 glutMotionFunc (mouseDrag) ; 

90 glutDisplayFunc (display) ; 

91 initPixelBuffer()j; 

92 glutMainLoop () ; 


93 atexit (exitfunc) ; 
94 return 0; 
95 } 


这 里 对 在 main.cpp 中 友 生 的 事情 作 简要 概述 。 第 1~17 行 加 载 合适 的 头 文 件 ， 来 使 你 的 操作 系统 访问 必要 的 支持 代码 。 其 余 
的 解释 应 当 从 底部 开始 讲 起 。 第 82~95 行 定义 main () 函数 ，main () 函数 中 做 了 以 下 事情 : 


. 第 83 行 将 一 些 用 户 界面 指令 打印 到 命令 窗口 。 


-initGLUT 初 始 化 GLUT 库 ， 并 且 设 置 图 像 窗 口 的 规格 ， 包 括 显示 模式 (RGBA) 、 缓 冲 区 (double 型 ) 、 尺 寸 (WXH) 和 


-gluOttho2D (0, W, H, 0) 建立 视觉 变换 (简单 的 投影 ) 。 


第 86~89 行 表明 键盘 和 和 鼠标 的 交互 会 用 一 些 济 数 来 指定 ， 池 数 包 括 keyborad、handleSpecialKeypress、mouseMove 和 


mouseDrag (这 些 防 数 的 细节 在 interactions.h 中 指定 ) o 


glutDisplayFunc (display) 指出 ， 函 数 display () 决定 了 在 窗口 中 显示 的 内 容 ，display () 函数 有 整整 三 行 代码 。 第 47~49 


行 调 用 tendef () 函数 来 计算 新 的 像素 值 ， 调 用 dtawTextute () 函数 来 画 出 OpenGL 的 纹理 ， 然 后 交换 显示 缓冲 区 。 


-drawTexture () 函数 建立 一 个 二 维 OpenGL 纹 理 图 像 ， 创 建 一 个 四 边 形 图 像 ， 初 始 纹理 坐标 为 〈0.0f，0.0f，) ， 
(0.0f，1.0f) ， (1.0f, 1.0f) 和 (1.0f, 0.0f) ， 实 际 是 单位 正方 形 的 四 个 角 对 应 的 像素 坐标 (0, 0), (0，H) ， CW, H) 
和 (W, 0) o 


. 双 缓 冲 是 一 种 用 来 提高 图 形 程序 效率 的 第 见 技术 。 一 个 缓冲 区 提供 可 被 读 取 用 于 显示 的 内 存 ， 与 此 同时 ， 男 一 个 缓冲 区 提 
供 一 段 内 存 ， 保 证 下 一 帧 的 内 容 能 够 被 写 入 。 在 图 形 序 列 的 帧 与 帧 之 间 ， 两 个 缓冲 区 交换 它们 的 读 / 写 角色 。 


initPixelBuffer () 在 第 62~72 行 初始 化 像素 缓冲 区 ， 这 并 不 出 乎 意料 。 对 于 我 们 的 目的 来 说 ， 最 关键 的 是 最 后 一 行 ， 用 
CUDA “注册 OpenGL 缓 冲 区 。 这 个 操作 会 有 一 些 开销 ,但 是 它 可 以 做 到 低 开销 “映射 ” ， 如 果 上 映射 成 功 ， 则 将 缓冲 区 内 存 的 
控制 交 给 CUDA 来 进行 写 输出 。 如 果 没 有 映射 成 功 ， 则 返回 缓冲 区 内 存 的 控制 给 OpenGL 用 于 显示 。 图 4.2 总 结 了 CUDA 和 OpenGL 
间 的 互 操作 。 


用 内 核 函 数 处 理 像素 


图 形 窗 口 
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图 4.2 ”两 种 不 同方 式 访 问 设备 内 存 的 图 示 ， 若 映射 成 功 ， 跳 转 到 CUDA 来 存储 计算 结果 ; 若 未 映射 《 即 返回 OpenGL 控 制 ) 则 显 
S28 HR 


Hl 


-olutMainLoop () ， 第 92 行 是 真正 行动 的 开始 。 它 反复 检查 输入 ， 并 且 需 要 一 种 通过 调用 tendet 函 数 的 display 函 数 更 新 图 像 
的 计算 ， 如 下 : 


- 将 像素 缓冲 区 映射 到 CUDA， 并 且 获 取 一 个 指向 缓冲 区 内 存 的 CUDA 指 针 ， 这 个 指针 可 以 作为 设备 端 输出 数组 。 
` 调用 包装 函数 ketnelLaunchet () ， 这 个 函数 启动 内 核 来 计算 像素 值 从 而 更 新 图 像 。 
` 映射 失败 而 用 OpenGL 显 示 内 容 。 


- 退出 应 用 程序 时 ，atexit (exitfunc) 执行 最 终 清理 工作 ， 它 在 main () 中 返回 0 (意味 着 函数 的 结束 ) 之 前 取消 资源 的 注 
册 ， 并 且 删 除 ODpenGL 的 像素 缓冲 和 纹理 。 


在 main.cpp 的 所 有 代码 中 ， 当 你 想 创 造 属 于 上 自己 的 CUDA/OpenGL 互 操作 应 用 程序 时 ， 唯 一 需要 改变 的 残 是 render () R 


数 。 在 这 个 浮 数 中 ， 你 需要 更 新 kernelLauncher () 函数 的 参数 列表 。 


代码 清单 4.6 flashlight/kernel.cu 


1 #include "kernel.h" 

2 #define TX 32 

3 #define TY 32 

5 device | 

6 unsigned char clip(int n) { return n > 255 ? 255 : (n< 0? 0: n); } 
7 

8 global | 

9 void distanceKernel (uchar4 *d out, int w, int h, int2 pos) { 

10 const int c = blockIdx.x*blockDim.x + threadIdx.x; 

L1 const int r = blockIdx.y*blockDim.y + threadīIdx.y; 

12 if ((c >= w) || (r >= h)) return; // Check if within image bounds 
13 const int i = c + r*w; // 1D indexing 

14 const int dist = sqrtf((c - pos.x)*(c - pos.x) + 

15 (r - pos.y)*(r - pos.y)); 

16 const unsigned char intensity = clip(255 - dist); 

17 qd out[i] .x = intensity; 


18 qd out[i].y = intensity; 

19 qd out [i].z = 0; 

20 d out([i].w = 255; 

21 ] 

22 

23 void kernelLauncher (uchar4 *d out, int w, int h, int2 pos) { 

24 const dim3 blockSize(TX, TY); 

25 const dim3 gridSize = dim3((w + TX - 1)/TX, (h + TY - 1)/TY); 
26 distanceKernel<<<gridSize, blockSize>>>(d_ out, w, h, pos); 
27 } 


(UiSis 4.67, kernel.cukJREMZE ERRAR, SEBUSHE, ESV toe —-TeewABWkernelLauncher () , 
这 个 函数 计算 网 格 维度 ， 并 且 局 动 内 核 。 注 意 ， 你 将 找 不 到 任何 关于 主机 端 输出 数组 的 内 容 。 计 算 和 显示 都 是 在 设备 端 处 理 的 ， 
不 需要 再 把 数据 传 回 主 机 端 。 (这 种 通过 PCle 总 绪 进行 的 大 量 图 像 数据 传输 很 耗 时 ， 而 且 大 大 抑制 了 实时 交互 能 力 。) 你 也 找 
不 到 cudaMalloc () 来 为 设备 端 数组 申请 空间 。main.cpp 中 的 render () 尔 数 声明 了 一 个 指针 d_out， 它 从 
cudaGraphicsResourceGetMappedPointer () 获取 值 ， 并 且 提 供 指 向 为 像素 缓冲 区 分 配 内 人 存 的 CUDA 指 针 。 


与 内 核 相 关 的 头 文件 在 代码 清单 4.7 中 给 出 。 除 了 包含 保护 立 数 和 内 核 浮 数 原型 外 ，kernel.h 还 包谷 uchar4F0int2 的 预 声 
明 。 这 样 ， 编 译 器 可 以 在 CUDA 代 码 (知道 它们 的 定义 ) 建立 或 执行 前 ， 知 道 它 们 的 存在 。 


代码 清单 4.7 flashlight/kernel.h 
#ifndef KERNEL H 
#define KERNEL H 


struct uchar4; 
Btruct int22: 


void kernelLauncher(uchar4 *d out, int w, int h, int2 pos); 


owowmnyt na UP WD FP 


#endiff 


代码 清单 4.8 flashlightVinteractions.h 指 定 回调 函数 来 控制 flashlight (RR) 应 用 程序 的 交互 


1 #ifndef INTERACTIONS H 
2 #define INTERACTIONS H 
3 #define W 600 
4 #define H 600 
5 #define DELTA 5 // pixel increment for arrow keys 
6 #define TITLE STRING "flashlight: distance image display app" 
7 int2 loc = {W/2, H/2}; 
8 bool dragMode = false; // mouse tracking mode 
9 
10 void keyboard(unsigned char key, int x, int y) { 
11 if (key == 'a') dragMode = !dragMode; // toggle tracking mode 
12 if (key == 27) exit(0); 
13 glutPostRedisplay(); 
14 } 
LS 
16 void mouseMove(int x, int y) { 
17 if (dragMode) return; 
18 Loc, cc: = X; 
19 loc.y = y; 
20 glutPostRedisplay() ; 
21.3 
ra 
23 void mouseDrag(int x, int y) { 
24 if (!dragMode) return; 
25 loc.xX = X; 
26 loc.y = y; 
27 glutPostRedisplay() ; 
28 } 
29 
30 void handleSpecialKeypress(int key, int x, int y) { 
31 if (key == GLUT KEY LEFT) loc.x -= DELTA; 
32 if (key == GLUT KEY RIGHT) loc.x += DELTA; 
a3 if (key == GLUT KEY UP) loc.y -= DELTA; 
34 if (key == GLUT KEY DOWN) loc.y += DELTA; 
35 glutPostRedisplay() ; 
36 } 
3-7 
38 void printInstructions() { 
39 printf ("flashlight interactions\n"); 
40 printf ("a: toggle mouse tracking mode\n") 
41 aiar Ferka keys: move ref location\n") 
42 printf ("esc: close graphics window\n") ; 
43 } 
44 
45 #endif 


flashlight 应 用 程序 开 友 的 目标 是 显示 一 个 可 交互 式 改变 的 图 像 。 每 个 图 像 元 素 对 应 该 位 置 到 参考 点 的 距离 ， 这 个 参考 点 可 


以 被 交互 式 地 移动 。 现 在 我 们 准备 开始 定义 和 实现 互动 。 代 码 清单 4.8 中 给 出 的 interactions.h 代 码 允 许 用 户 通过 移动 鼠标 或 按 下 
箭头 键 来 移动 参考 点 ( 即 手电 简 光 束 的 中 心 ) 。 按 下 切换 键 在 鼠标 移动 跟踪 和 鼠标 拖 折 跟踪 ( 按 下 鼠标 按钮 ) 之 间 切 换 。 按 下 
Esc 键 来 关闭 图 像 窗口 。 这 里 简单 摘 述 代码 所 做 的 事情 以 及 它 是 如 何 进行 互动 的 : 


. 第 3~6 行 ， 设置 了 图 像 的 维度 、 标 题 栏 中 显示 的 文本 、 每 按 下 箭头 键 参 考点 移动 的 距离 (以 像素 为 单位 ) 。 
` 第 7 行 ， 设置 了 初始 参考 位 置 {W/2，H/2}， 即 图 像 的 中 心 。 


第 8 行 ， 声 明了 一 个 布尔 类 型 变量 dragMode， 初 始 化 为 false。 我 们 使 用 dtagMode 在 鼠标 移动 跟踪 和 “ete” ZAR 
切换 。 


- 第 10~14 行 ， 指 定 用 键盘 进行 定义 过 的 互动 : 


按 下 a 键 切 换 dragMode 的 值 来 对 应 鼠标 跟踪 模式 。 
- ASCII 码 27 对 应 Esc 键 ， 按 下 Esc 键 ， 关 闭 图 像 窗 口 。 


- glutPostRedisplay () 遂 数 在 每 个 回调 函数 的 结尾 被 调用 ， 根 据 交 互 输入 计算 出 一 个 新 的 图 像 用 于 显示 (调用 main.cpp 中 
的 display () ) 。 


` 第 16~21 行 ， 指 定 了 对 鼠标 移动 的 响应 。 当 dragMode 切 换 上 时，return 用 来 确保 不 执行 任何 操作 。 否 则 ， 参 考 位 置 变 量 的 成 员 
会 在 计算 和 显示 更 新 图 像 前 ， 被 设置 成 与 鼠标 位 置 x、y 坐 标 一 致 〈 通 过 glutPostRedisplay () KM) 。 


. 相似 地 ， 第 23~28 行 ， 指 定 了 对 “点 击 - 拖 奥 ”的 响应 。 当 dragMode 为 false 时 ，return 语 名 确保 不 执行 任何 行动 。 否 则 ， 参 考 
位 置 将 被 重 置 到 鼠标 拖 提 的 最 后 位 置 。 


第 30~36 行 ， 指 定 对 具有 预 设 动作 的 特殊 键 的 响应 。 (注意 ， 标 准 键盘 互动 是 基于 ASCII 键 码 ， 处 理 的 ， 所 以 像 箭 头 键 和 
功能 键 等 特殊 键 ， 没 有 对 应 的 标准 ASCII 码 ， 它 们 需要 被 分 开 处 理 。) flashlight (手电 简 ) 应 用 程序 运行 起 来 ， 按 下 箭头 键 ， 参 
考 位 置 将 在 期 望 方向 上 移动 DELTA 个 像素 。 


第 38~43 行 的 ptintInstructions () 函数 包括 打印 提示 清单 ， 这 些 清 单 通过 控制 台 为 用 户 提 供 交 互 指令 说 明 。 


尽管 flashlight 应 用 程序 所 有 的 代码 和 解释 有 数 页 之 多 ， 但 不 要 被 吓 到 。 让 我 们 停 下 来 看 看 事情 的 本 质 。 当 显示 总 共 大 约 
200 行 的 代码 时 ， 如 果 不 考虑 其 可 读 性 ， 那 么 全 部 的 代码 可 以 被 压缩 到 很 少 的 几 行 ， 所 以 ， 实 际 要 理解 和 消化 的 代码 不 是 非常 
多 。 可 能 更 加 重要 的 是 ， 在 main.cpp 中 超过 一 半 的 代码 实际 上 根本 不 需要 修改 ， 就 可 以 用 来 创建 你 自己 的 应 用 程序 ， 当 然 不 包 
括 需 要 改变 kernelLauncher () 函数 的 参数 列表 或 者 定制 标题 栏 要 显示 的 信息 。 如 果 一 开始 以 flashlight 应 用 程序 作为 模板 ， 你 
应 该 (诚挚 推荐 ) 利用 CUDA 的 威力 来 创造 你 自己 的 图 形 交 互 应 用 程序 ， 可 通过 蔡 换 内 核 函 数 或 者 在 interactions.h 中 修改 用 户 
交互 方式 来 实现 。 


最 后 ， 给 出 Linux 下 创建 应 用 程序 所 需 的 Makefile 文 件 ， 见 代码 清单 4.9。 


代码 清单 4.9 flashlight/Makefile 


1 UNAME S := $(shell uname) 

2 

3 ifeq ($(UNAME S), Darwin) 

4 LDFLAGS = -Xlinker -framework,OpenGL -Xlinker -framework, GLUT 
5 else 

6 LDFLAGS += -L/usr/local/cuda/samples/common/1lib/linux/x86 64 
7 LDFLAGS += -lglut -1GL -1GLU -1GLEW 

8 endif 

9 
10 NVCC = /usr/local/cuda/bin/nvec 

11 NVCC FLAGS = -g -G -Xcompiler "-Wall -Wno-deprecated-declarations" 
12 
13 all: main.exe 
14 


15 main.exe: main.o kernel.o 
16 S(NVCC) $^ -o $@ $(LDFLAGS) 


18 main.o: main.cpp kernel.h interactions.h 
19 S(NVCC) S(NVCC_ FLAGS) -c $< -o $@ 


21 kernel.o: kernel.cu kernel.h 
22 $ (NVCC) $(NVCC_ FLAGS) -c $< -o $@ 


Windows 用 户 需 要 改变 一 个 生成 的 自 定 义 属性 ， 并 且 添 加 两 个 库 文 件 OpenGL Utility Toolkit (GLUT) 和 OpenGL 
Extension Wrangler (GLEW) 。 为 了 使 事情 变 得 简单 ， 并 且 确 保 库 版 本 的 一 致 性 ， 我 们 友 现 可 以 很 方便 地 将 库 文件 复制 (可 
以 通过 在 CUDA Samples 目 录 中 搜索 文件 名 freeglut.dll、freeglut.lib、glew64.dll 和 glew64.lib) 到 工程 目录 中 ， 然 后 通过 
PROJECT=Add Existing Item 把 它们 加 入 到 工程 中 。 


可 通过 工程 属性 页 改变 生成 的 自 定义 属性 。 在 解决 方案 资源 管理 器 中 右键 单 击 flashlight， 然 后 依次 选择 Properties 一 
Configuration Properties=>C/C+ + =General>Additional Include Directories， 并且 编辑 列表 来 添加 CUDA Samples 的 
common\inc 目 录 。 它 的 默认 安装 位 置 是 : C: \ProgramData\NVIDIA Corporation\CUDA Samples\v7.5\common\inc, 


4.3 ”stability 应 用 程序 


为 了 讲 清 楚 以 flashlight 应 用 程序 作为 模板 创造 更 多 有 趣 应 用 程序 的 想法 ， 让 我 们 实际 动手 做 一 下 。 这 里 ， 我 们 在 flashlight 
的 基础 上 创建 一 个 应 用 程序 ， 用 来 分 析 线 性 振荡 器 的 稳定 性 ， 然 后 我 们 将 这 个 应 用 程序 扩展 到 去 处 理 一 般 的 单一 自由 度 
(1DoF) 的 系统 ， 包 括 泡 德 堡 尔 振 沁 器 ， 一 种 更 有 趣 的 振荡 器 。 

线性 振荡 器 来 源 于 机 械 学 的 质量 - 弹 熙 -阻尼 器 系统 的 模型 (一 种 RLC 电 路 ， 其 性 质 仅 与 平衡 点 附近 的 所 有 1DoF 系 统 有 
K) 。 它 的 数学 模型 包含 一 个 二 阶 常 微分 方程 (ODE) ， 可 以 用 其 最 简 形 式 (选择 合适 的 时 间 单 位 ) 表示 为 x"+2bx'+x=0， 其 
中 x 是 到 平衡 点 的 位 移 ，b 是 阻尼 单数 ， 上 抽 号 表示 时 间 的 导数 。 为 了 把 问题 化 简 成 一 个 方便 处 理 的 形式 ， 我 们 引入 一 个 新 的 速 
度 变量 y 将 系统 转化 为 两 个 一 阶 常 微分 方程 ， 并 且 写 出 这 两 个 给 出 x、y 变 化 速率 的 一 阶 常 微分 方程 : 


1 
X — y 
1 _ _ — Ewa 
Y — 5X 2by=f(x, y, t, ) 

作为 伏笔 ， 我 们 这 里 做 的 一 切 都 可 以 推广 到 更 多 不 同 的 1DoF 振 荡 器 中 ， 只 需要 在 f (x, y, t, ..) 中 y 的 右边 加 入 其 他 表达 

了 式 。 尽 管 我 们 能 够 写 出 线性 振荡 器 的 解析 解 ， 但 是 ， 在 这 里 ， 我 们 着 眼 于 用 数值 方法 来 使 应 用 才 盖 的 沁 围 更 广 ， 因 此 ， 我 们 使 用 
有 限 差 分 法 。 有 限 差 分 法 用 离散 的 时 间 步 长 dt 的 倍数 来 计算 数值 (所 以 我 们 引入 tk= kx*sdt，xk=x (th) 和 yk=y (tk) 作为 相关 
变量 ) ， 并 且 用 差分 近似 值 代 蔡 精 确 的 导数 ， 即 x 一 (xk+1 - Xk) /dt，y 一 (ykr1 - yk) /dt。 这 里 ， 我 们 运用 最 简单 的 有 限 差 


分 法 ， 显 了 式 欧 拉 方 法 的 思想 是 将 导数 蔡 换 为 有 限 差分 表达 式 ， 并 且 根 据 一 个 时 间 步 长 开始 的 原 值 xk 和 yk 求 解 时 间 步 长 结束 时 的 新 


值 xk+1 和 yk+1 得 到 |: 


Xk S Xetdt* yx 


Vk+1 =y,+dt ià (—x;,— 2by,) 


接 下 来 ， 我 们 可 以 选择 一 个 急 始 状态 {x0，y0}， 并 且 计算 后 续 连 续 时 间 步 长 的 系统 状态 。 


我 们 刚刚 描述 了 一 种 源 自 单一 初始 化 状态 的 计算 解决 方案 (一 系列 状态 ) ， 并 且 解 决 方案 是 完全 串 行 的 ; 这 个 系列 中 的 状态 
计算 是 一 个 接着 一 个 的 。 


然而 ， 稳 定性 并 不 仅仅 依赖 于 一 个 初始 状态 ， 而 是 依赖 于 所 有 初始 状态 的 解决 方案 。 对 于 一 个 稳定 的 平衡 ， 所 有 附近 的 初始 
状态 都 会 产生 能 够 达到 (或 者 说 ， 至 少 不 远 离 ) 平衡 的 解决 方案 。 找 到 一 个 趋向 远离 平衡 的 解决 方案 ， 意 味 着 它 是 不 稳定 的 。 与 
动力 学 和 稳定 性 有 关 的 更 多 信息 ， 参 见 参 考 文献 [‘' 3 


这 种 集体 性 质 形式 使 稳定 性 测试 很 适合 并 行 化 : 通过 局 动 一 个 在 平衡 附近 密集 取样 的 初始 化 状态 的 计算 网 格 ， 我 们 可 以 测试 
源 于 周围 初始 状态 的 解决 方案 。 我 们 友 现 可 以 并 行 地 计算 成 捍 上 干 个 解决 方案 。 通 过 CUDA/OpenGL 的 互 操作 ， 还 可 以 实时 观 
察 结果 ， 并 进一步 与 结果 进行 互动 。 


特别 地 ， 我 们 将 选择 一 个 网 格 的 初始 状态 ， 这 些 初 始 状 态 是 通过 定期 在 平衡 处 进行 矩形 中 心 及 样 得 到 的 。 我 们 将 计算 对 应 的 
解决 方案 ， 并 且 基 于 距离 的 微小 变化 ， 及 来 和 目 平衡 的 dist r (距离 比率 ) 分 配 阴影 值 。 为 了 展示 结果 ， 我 们 将 为 每 个 像素 分 配 一 
个 红色 通道 值 ， 这 些 值 与 距离 比率 成 正比 (并且 被 限制 为 [0，255]) ,我们 还 会 为 每 个 像素 分 配 一 个 蓝 色 通道 值 ， 这 些 值 与 距离 
比率 成 反比 (同样 被 限制 为 [0，255]) 。 产 生 加 平衡 态 收 敛 (意味 着 稳定 ) 的 解决 方案 的 初始 状态 是 由 监 色 通道 所 控制 的 ， 然 而 
产生 远离 平衡 状态 的 解决 方案 的 切 始 状态 是 由 红色 通道 所 控制 的 ， 并 且 收 敛 /远离 的 转换 由 蓝 色 与 红色 的 值 是 否 相等 表示 ， 即 是 
BARE. 


鉴于 观察 到 转化 成 灰 度 模式 的 图 像 时 ， 区 分 红色 (R) PRE (B) 比较 困难 ， 所 以 这 里 引入 公式 G 二 0.3+ (RB) /2, A 
色 通 道 来 提高 对 比 度 和 亮度 。 用 stability (稳定 性 ) 应 用 程序 生成 的 全 彩 图 像 可 通过 登录 www.cudaforensgineefs.com 了 解 。 
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图 4.3” 带 阴影 的 stability 图 像 ， 阴 影 调整 为 显示 一 个 明亮 的 中 心 排斥 区 域 和 周围 稍 瞳 一 些 的 吸引 区 域 


在 图 像 窗口 显示 的 结果 将 由 红 、 赣 或 紫色 像素 组 成 的 区 域 构成 (在 水 平 x 轴 和 季 直 y 轴 的 交汇 处 使 用 绿色 通道 ) 。 图 4.3 给 出 
了 同时 具有 收敛 和 远离 区 域 的 stability 应 用 程序 的 结果 预览 区 


我 们 计划 产生 单一 系统 的 stability 图 像 。 我 们 同样 会 介绍 交互 ， 这 样 束 可 以 观察 到 不 同 参 数 或 不 同系 统 下 的 稳定 性 的 变化 情 
况 。 


已 经 了 解 了 天 于 内 核 和 交互 的 想法 ,我们 开始 看 代码 。 正 如 之 前 强调 过 的 ， 与 flashlight 应 用 程序 相 比 ，stability 应 用 程序 的 
主要 变化 包括 如 代码 清单 4.10 所 示 的 新 内 核 浮 数 (及 一 些 支撑 消 数 ) 以 及 如 代码 清单 4.11 所 示 的 新 交互 规格 说 明 。 


代码 清单 4.10 stability/kernel.cu 


1 #include "kernel.h" 

2 #define TX 32 

3 #define TY 32 

4 #define LEN 5.f 

5 #define TIME STEP 0.005f 

6 #define FINAL TIME 10.f 

7 

8 // scale coordinates onto [-LEN, LEN] 

9 device __ 

10 float scale(int i, int w) { return 2*LEN*(((1.£*i)/w) - 0.5f£); } 
11 

12 // function for right-hand side of y-equation 

13 device __ 

14 float f(float x, float y, float param, float sys) { 

15 if (sys == 1) return x - 2*param*y; // negative stiffness 
16 if (sys == 2) return -x + param*(1 - x*x)*y; //van der Pol 
17 else return -x - 2*param*y; 

18 } 

19 
20 // explicit Euler solver 
21 device _ 
22 float2 euler(float x, float y, float dt, float tFinal, 
23 float param, float sys) { 
24 float dx = 0.f, dy = 0.f; 
25 for (float t = 0; t < tFinal; t += dt) { 
26 dx = dt*y; 
2 dy = dt*f(x, y, param, sys); 
28 xX += dX; 
29 y += dy; 

30 } 

31 return make float2(x, y); 

32 } 

3a 

34 device _ 

35 unsigned char clip(float x){ return x > 255 ? 255 : (x< 0? 0: x); } 
36 

37 // kernel function to compute decay and shading 


38 global __ 

39 void stabImageKernel (uchar4 *d out, int w, int h, float p, int s) { 
40 const int c = blockIdx.x*blockDim.x + threadIdx.x; 

41 const int r = blockIdx.y*blockDim.y + threadIdx.y; 


42 if ((c >= w) || (r >= h)) return; // Check if within image bounds 
43 const int i = c + r*w; // 1D indexing 
44 const float x0 = scale(c, w); 


45 const float yO = scale(r, h); 

46 const float dist 0 = sqrt(x0*x0 + y0*y0); 

47 const float2 pos = euler(x0, y0, TIME STEP, FINAL TIME, p, 8); 
48 const float dist_f = sqrt(pos.x*pos.x + pos.y*pos.y) ; 

49 // assign colors based on distance from origin 

50 const float dist r = dist _f/dist 0; 

51 d out[i] .x = clip(dist_r*255); // red ~ growth 


52 d out [i].y = ((c == w/2) || (r == h/2)) ? 255 : 0; // axes 
53 d out[i].z = clip((1/dist_r)*255); // blue ~ 1/growth 

54 d out[i].w = 255; 

55 } 

56 


57 void kernelLauncher(uchar4 *d_ out, int w, int h, float p, int s) { 
58 const dim3 blockSize(TX, TY); 

59 const dim3 gridSize = dim3((w + TX - 1)/TX, (h + TY - 1)/TY); 

60 stabImageKernel<<<gridSize, blockSize>>>(d_ out, w, h, p, 8); 
61 } 


这 里 对 kernel.cu 代 码 作 简 要 说 明 。 第 1~6 行 引入 了 kernel.h， 并 且 定 义 了 一 些 单 量 (线程 数 、 空 间 比 例 因 子 ， 用 于 模拟 的 时 
间 步 长 和 时 间 间 隅 ) 。 第 8~35 行 定义 了 新 的 设备 疡 销 数 ， 它 们 会 被 内 核 调用 : 


-scale () 限定 像素 值 的 坐标 范围 为 [LLEN，LEN]。 


FO 给 出 了 速度 的 变化 率 。 如 果 你 对 研究 其 他 1DoF 振 荡 器 感 兴趣 ， 可 以 编辑 函数 来 实现 你 感 兴 趣 的 系统 。 在 样 例 代 码 
中 ， 包 含 三 个 不 同 的 版 本 ， 分 别 对 应 着 三 个 不 同 的 变量 sys 值 。 


- 默认 版 本 (sys=0) 是 上 面 讨 论 的 线性 阻尼 振荡 器 。 
- 设置 sys=1 对 应 一 个 负 有 效 刚度 线性 振荡 器 (可 能 一 开始 看 起 来 很 奇怪 ,但 是 这 是 一 种 接近 于 倒立 摆 位 的 情况 ) 。 
- 设置 sys 二 2 对 应 一 个 个 人 比较 喜爱 的 范 德 堡 尔 振 荡 器 ， 它 具有 一 个 非 线 性 阻尼 项 。 


euler () 对 一 个 给 定 的 初始 状态 进行 模拟 ， 并 且 根 据 轨 迹 的 位 置 在 模拟 区 间 结 尾 返 回 一 个 float2 型 的 值 。 (注意 ，float2 型 
允许 我 们 将 位 置 和 速度 结合 为 一 个 实体 ， 还 可 以 用 另 一 种 方法 ， 就 是 像 我 们 从 内 核 函 数 中 处 理 大 批 输出 数据 那样 ， 通 过 传递 分 配 
来 存储 多 个 值 的 内 存 指 针 达 到 目的 ， 然 而 ， 在 这 里 我 们 并 不 需要 这 样 做 。) 


第 34 行 和 第 35 行 定义 的 clip () Až flashlight » H) FEAF 8948). HA MKstablmageKernel () 的 定义 从 第 38 行 开始 。 注 意 ， 
参数 增加 了 阻尼 参数 值 p 和 振荡 器 类 型 s。 第 40~43 行 的 索引 计算 和 边界 检查 与 fashlight 应 用 程序 中 的 distanceKernel () 完全 一 致 。 
第 44 行 和 第 45 行 根据 像素 的 位 置 并 且 计 算 以 平衡 点 为 原点 的 初始 距离 dist_0， 我 们 引入 {x0，y0} 作 为 已 进行 尺度 放 缩 的 float 型 的 
坐标 值 (范围 是 [LEN，LEN]) 。 第 47 行 调用 eulet () 函数 ， 模 拟 了 在 FINAL_ TIME 时间 范围 内 ， 每 次 按照 TIME_STEP 的 时 间 
步 长 进行 迭代 之 后 坐标 变化 的 过 程 ， 并 在 最 后 返回 最 终 的 坐标 值 pos。 第 50 行 比较 了 距 原 点 的 最 终 距离 和 初始 距离 。 第 51~54 

， 基 于 距离 比较 分 配 阴 影 值 ， 其 中 ， 蓝 色 代 表 衰 减 到 平衡 〈 即 利于 稳定 的 投票 ) ， 红 色 代 表 逐 渐 远离 平衡 ( 即 否决 稳定 的 其 他 
投票 ) 。 第 52 行 使 用 绿色 通道 显示 在 平衡 点 处 相交 的 水 平 x 轴 和 坚 直 y 轴 。 


第 57~61 行 ， 用 正确 的 参数 列表 和 待 局 动 内 核 名 称 来 定义 修改 后 的 包 尖 函数 kernelLauncher () 。 


代码 清单 4.11 stability/interactions.h 


1 #ifndef INTERACTIONS H 
2 #define INTERACTIONS H 
3 #define W 600 
4 #define H 600 
5 #define DELTA P 0.1f 
6 #define TITLE STRING "Stability" 
7 int sys = 0; 
8 float param = 0.1f; 
9 void keyboard(unsigned char key, int x, int y) { 
10 if (key == 27) exit (0); 
e a A 1f (key == '0') sys = 0; 
12 1f (key == ‘1') sys = 1; 
13 1f (key == '2') sys = 2; 
14 glutPostRedisplay () ; 
15 } 
16 
17 void handleSpecialKeypress(int key, int x, int y) { 
18 if (key == GLUT KEY DOWN) param -= DELTA P; 
工 号 if (key == GLUT KEY UP) param += DELTA P; 
20 glutPostRedisplay () ; 
21 } 
22 
23 // no mouse interactions implemented for this app 
24 void mouseMove(int x, int y) { return; } 
25 void mouseDrag(int x, int y) { return; } 
26 
27 void printInstructions() { 
28 printf ("Stability visualizer\n"); 
29 printf ("Use number keys to select system: \n") ; 
30 printf ("\t0O: linear oscillator: positive stiffness\n") ; 
31 printf ("\tl: linear oscillator: negative stiffness\n") ; 
32 printf ("\t2: van der Pol oscillator: nonlinear damping\n") ; 
33 printf ("up/down arrow keys adjust parameter value\n\n") ; 
34 printf ("Choose the van der Pol (sys=2)\n"); 
35 printf ("Keep up arrow key depressed and watch the show.\n"); 
36 } 
37 
38 #endif 


interactions.h 如 代码 清单 4.11 所 示 ， 对 它 的 修改 看 起 来 也 比较 简单 明了 。 除 了 设置 图 像 宽 度 W 和 高 度 H 的 #define 声 明之 
外 ， 加 入 了 DELTA _P 来 代表 参数 值 的 增 量 大 小 。 第 7 行 和 第 8 行 初 始 化 系统 编号 变量 sys 和 用 于 调节 阻尼 值 的 参数 值 param。 


文 持 一 些 键盘 的 交互 : 按 下 Esc 退出 应 用 程序 ; 按 下 数字 键 0、1 或 2 选择 模拟 的 系统 ; 向 上 箭头 和 回 下 和 荫 头 键 分 别 增加 和 减 
小 阻尼 参数 值 ， 变 化 量 为 DELTA_P。 这 里 没有 为 鼠标 交互 提 供 广 持 ， 所 以 mouseMove () 和 mouseDrag () 直接 返回 ,什么 
事情 也 不 做 。 


最 后 ， 在 其 他 文件 中 有 几 个 细节 需要 注意 : 


- kernel h@@kernelLauncher () 函数 的 原型 ， 因 此 应 该 复制 kefnel.cu 中 函数 定义 的 第 一 行 ， 替 代 flashlight/ketnel.cu 中 原来 的 
原型 说 明 (加 上 一 个 分 号 ) 。 


main.cpp 中 还 需要 一 些小 改变 : 
. render () 中 调用 的 kernelLauncher () 的 参数 列表 已 经 改变 ， 并 且 需 要 改变 那个 调用 来 与 修改 的 内 核 语 法 相 匹 配 。 


‘render () 也 很 适合 指定 欲 在 图 像 窗 口 标题 栏 里 显示 的 信息 。 例 如 ， 样 例 代码 显示 应 用 程序 名 (“Stability ) ， 下 面 紧 


跟着 patam 和 sys 的 值 。 代 码 清 单 4.12 给 出 了 tendet () 中 关于 标题 栏 信息 的 改进 版 本 和 改进 的 内 核 启 动 调用 。 


代码 清单 4.12 stabilitymain.cpp 中 render () 函数 的 升级 版 


1 void render() { 

2 uchar4 xd out = 0; 

3 cudaGraphicsMapResources(1, &cuda_pbo resource, 0); 

1 cudaGraphicsResourceGetMappedPointer((void **)&d out, NULL, 
5 cuda pbo resource) ; 

6 kernelLauncher(d out, W, H, param, sys) ; 

7 cudaGraphicsUnmapResources(1, &cuda_pbo resource, 0); 

8 // update contents of the title bar 

9 char title[64]; 
10 sprintf (title, "Stability: param = %.1f, sys = %*d", param, sys); 
11 glutSetWindowTitle (title); 
E 


运行 stability 可 视 化 程序 


我 们 已 经 浏览 了 相关 的 代码 ， 现 在 到 了 测试 这 个 应 用 程序 的 时 候 了 。 在 Linux 中 ， 创 建 这 个 工程 的 Makefile 与 代码 清单 4.9 中 
提供 的 flashlight 的 Makefile 相 同 。 在 Visual Studio 中 ， 引 入 的 库 文 件 和 工程 设置 与 flashlight 中 摘 述 的 一 致 。 当 你 生成 并 运行 
应 用 程序 时 ， 应 该 打开 两 个 窗口 : 一 个 是 通常 的 命令 行 窗口 ， 显 示 所 支持 的 用 户 输入 的 简要 汇总 ; 另 一 个 是 图 像 窗 口 ， 显 示 稳 定 
性 结果 。 默 认 设置 指定 线性 振荡 器 具有 正 阻 尼 ， 你 可 以 通过 显示 stability (稳定 性 ) 的 标题 栏 来 验证 : param=0.1，sys=0， 如 
图 4.4a 所 示 。 因 为 非 受 迫 性 线性 阻尼 振 沪 器 的 所 有 解决 方案 都 吸引 向 平衡 态 ， 所 以 图 像 窗口 应 该 在 蜡 区 域 显 示 坐 标 轴 ， 意 指 处 于 
稳定 。 然 后 ， 你 也 许 会 测试 向 下 箭头 键 。 按 一 下 会 将 阻尼 值 从 0.1 降 到 0.0 (这 个 应 该 在 标题 栏 中 验证 ) ， 并 且 你 应 该 可 以 观察 到 
区 域 由 上 暗 变 为 中 度 亮色 ， 如 图 4.4b 所 示 。 阻 尼 为 0 的 线性 振荡 器 是 中 度 稳定 的 (使 用 保持 不 断 接近 ， 但 是 无 法 到 达 平 衡 的 正统 振 
荡 ) 。 显 式 欧 拉 微 分 方程 求解 器 会 产生 一 些小 误差 ， 导 致 倾向 于 远离 原点 ， 但 是 颜色 体系 正确 地 标识 全 部 的 初始 状态 都 能 得 到 
解 ， 该 解 大 体 上 保持 了 到 平衡 态 的 距离 。 再 按 一 下 向 下 东 头 键 ， 将 使 阻尼 参数 值 变 为 -0.1， 如 图 4.4c 所 示 的 亮 区 域 表 明 不 稳定 。 


[E Stabi 1 ry: param= 0." i sys= 0 5 a : B’ Stabi 1 i p aram= 0.0. sys S S 和 


a) param=0.1, IŠ De hee IIK 5 | Bl isk EP TAS BS b) param = 0.0， 中 度 腕 区 域 表 明 中 度 稳 定 


B' Stability: param= -0.1, sys= 0 7 


c) param 二 -0.1， 党 区 域 表明 得 到 的 是 远离 稳定 平衡 态 的 解 
图 4.4 不同 阻 尼 参 数 的 线性 振荡 器 的 stability 可 视 化 


现在 ， 按 下 1 键 来 设置 sys=1， 对 应 于 一 个 负 有 效 刚度 的 系统 ， 并 且 增 加 阻尼 值 。 你 现在 应 该 看 到 明亮 区 域 中 带 有 黑色 部 分 
的 轴线 (和 中 度 明亮 的 过 度 区 域 ;， 如 图 4.5 所 示 。 人 在 这 种 情况 下 ， 一 些 解 移 向 平衡 态 ， 但 是 ， 大 多 数 (几乎 所 有 ) 初始 条 件 都 


会 导致 远离 平衡 态 的 解 ， 这 是 不 稳定 的 。 


我 们 将 学 习 样 例 中 的 最 后 一 种 情况 ， 设 置 阻尼 param=0.0、sys=2， 即 范 德 堡 尔 振荡 器 。 因 为 param=0.0， 所 以 这 个 系统 
己 无 阻尼 线性 振荡 器 相同 。 因 此 ， 我 们 再 一 次 观察 中 度 亮 区 域 的 平衡 。 当 你 按 向 上 箭头 键 来 使 阻尼 为 正 时 ， 会 友 生 什么 ? 平衡 仿 
馈 一 个 亮 区 域 包围 ， 所 以 附近 的 初始 状态 产生 远离 稳定 仿 的 解 ， 并 且 平 衡 是 不 稳定 的 。 然 而 ， 外 部 区 域 是 瞳 区 域 ， 更 外 面 的 初始 
状态 将 产生 向 内 吸 的 解 。 没 有 其 他 平衡 点 去 靠 捞 ， 那 么 这 些 解 在 哪里 终止 呢 ? 原来， 在 阴影 过 渡 附 近 有 一 个 封闭 的 、 吸 引 的 回 
路 ， 对 应 一 个 稳定 的 周期 运动 或 “限制 环 ” ( 见 图 4.6) 。 


图 4.5 ” 负 刚 度 线性 振荡 器 的 相 平 面 。 出 现 一 个 上 暗 区 域 ， 但 是 亮 区 域 表示 进入 不 稳定 平衡 态 


Stability Visualizer: param = 0.2, sys = 2 


学 德 堡 尔 振荡 器 的 相 平面 。 中 心 亮 区 域 表 示 不 稳定 平衡 态 。 外 部 瞳 区 域 表 示 向 内 衰减 的 解 。 这 些 结果 与 在 中 度 亮 区 域 的 
周期 性 的 稳定 “限制 环 ”轨迹 的 存在 是 一 致 的 


注意 ， 此 处 的 数值 稳定 性 分 析 结 果 应 被 看 作 是 示意 性 的 。 弟 微分 方程 求解 是 近似 的 ， 并 且 我 们 仅 测试 了 几 百 个 初始 状态 ， 所 
以 极 有 可 能 忽略 一 些 东 西 。 


在 完成 前 ， 你 可 能 想 一 直 按 着 向 上 箭头 键 来 实时 观察 稳定 性 视 周 图像 中 成 百 上 干 的 像素 变化 。 但 是 不 借助 并 行 计算 ， 你 是 不 
可 能 做 到 的 。 


44 AB |e 


在 本 章 中 ， 我 们 讨论 了 在 二 维 网 格 上 定义 和 局 动 内 核 的 要 点 。 我 们 给 出 并 解释 了 样 例 代 码 flashlight 应 用 程序 ， 它 利用 
CUDA/OpenGL 互 操作 ， 用 二 维 计 算 网 格 的 结果 ， 来 进行 实时 图 像 显 示 与 交互 。 最 后 ,我们 给 出 了 如 何 把 flashlight 当 作 一 个 模 
板 ， 并 在 它 的 基础 上 进行 修改 来 使 其 可 以 应 用 到 动态 稳定 性 数值 求解 这 一 实际 工程 问题 。 


45 ”推行 项 目 


1. 修 改 flashlight 应 用 程序 ， 使 其 变 为 一 个 “更 冷 /更 热 ” 游 戏 。 为 玩家 A 提供 一 个 选择 目标 像素 的 接口 。 然 后 ， 玩 家 B 根 据点 
的 颜色 寻找 目标 像素 。 其 中 ， 随 着 后 远离 目标 ， 扣 的 头 色 会 变 监 (或 红 ) 。 


2. 根 据 你 的 兴趣 ， 寻 找 一 个 其 他 的 1DoF 系 统 ， 并 且 修 改 stability 应 用 程序 来 研究 平衡 性 质 。 
3. 显 式 欧 拉 方法 也 许 是 进行 党 微分 方程 数值 求解 最 简单 的 但 也 最 不 可 靠 的 方法 。 请 尝试 通过 使 用 一 个 更 加 准确 的 党 微分 方程 
来 求解 方法 提高 stability 应 用 程序 的 性 能 。 龙 格 - 库 达 (Runge-Kutta) 法 是 扩展 到 多 数 领域 的 很 好 选择 。 


4. 范 德 堡 水 限制 环 在 param=0.1 时 近似 为 加 形 。 修 改 stability 应 用 程序 ， 使 阴影 决定 于 最 终 距 离 和 一 个 新 参数 rad 之 间 的 差 
值 。 实 现 对 rad 的 交互 控制 ， 并 且 运 行 修改 的 应 用 程序 来 确定 限制 环 的 大 小 。 
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第 5 章 ”模板 与 共享 内 存 


本 章 将 关注 需要 线程 间 交 换 数据 这 样 一 类 应 用 。 这 类 应 用 的 计算 线程 间 不 是 相互 独立 的 ， 而 是 与 计算 网 格 中 邻近 的 其 他 线程 
相互 依赖 的 。 我 们 所 要 实现 的 数学 模型 中 将 包含 者 积 (AA) 运算 。 在 该 运算 中 ， 邻 近 线 程 中 的 数据 将 通过 一 个 党 系数 数组 
进行 线性 组 合 。 在 计算 领域 ， 这 种 运算 通常 被 称 为 滤波 (filtering) ， 而 这 里 的 常 系数 数组 则 被 称 为 一 个 滤波 器 (filter) 或 者 模 
板 (stencil) 。 当 多 个 线程 竞争 访问 相同 的 数据 时 ， 线 程 间 的 相互 作用 会 引起 洽 贷 ， 所 以 CUDA 提 供 了 一 些 功 能 来 缓解 这 种 瓶 
须 ， 提 高 性 能 。CUDA 的 大 多 数 拉 巧 都 离 不 开 特 殊 类 型 的 内 存 ， 这 里 我 们 关注 的 是 共享 内 存 ， 它 使 得 同一 个 块 中 的 线程 可 以 高 效 


地 进行 信息 共享 。 


我 们 通过 一 个 一 维 的 例子 来 介绍 模板 计算 以 及 共享 内 存 的 基本 思想 。 在 这 个 例子 中 ， 我 们 将 通过 均匀 采样 值 来 计算 一 个 阔 数 
的 二 阶 导 数 。 然 后 我 们 将 创建 一 个 应 用 把 模板 和 共享 内 存 扩展 到 二 维 ， 这 个 应 用 使 用 雅 可 比 迭 代 法 求解 拉 音 拉 斯 方程 来 计算 和 显 
示 稳 仿 温 度 分 布 。 值 得 注意 的 是 求解 拉 普 拉 斯 万 程 在 流体 力学 、 静 电学 、 重 力 以 及 复 变 消 数 领域 也 有 应 用 。 最 后 我 们 创建 一 个 应 
用 来 锅 化 图 片 ， 为 况 明 对 初始 实现 版 本 改进 的 有 效 性 ， 借 助 了 一 些 性 能 分 析 手 段 。 


5.1 ”线程 间 依 赖 


这 一 音标 志 着 向 前 迈 出 的 重要 一 步 。 我 们 应 该 伦 一 点 时 间 来 明确 陈述 这 一 步 的 内 容 。 我 们 以 一 个 stability 应 用 结束 了 第 4 
章 ， 这 个 应 用 的 功能 是 计算 一 个 具有 人 急 始 状 态 网 格 的 振子 随时 间 的 变化 过 程 。 我 们 介绍 了 基于 有 限 差 分 的 导数 估计 ， 并 且 用 它 来 
天 联 每 一 个 线程 计算 出 来 的 时 间 历 史 中 的 连续 值 。 这 里 导数 的 计算 都 处 于 一 个 单独 的 线程 之 内 ， 并 且 每 个 线程 的 处 理 过 程 都 和 其 
他 线程 没有 依赖 天 联 。 每 个 线程 都 可 以 访问 它 目 己 的 初始 状态 〈 基 于 它 的 索引 值 ) ， 但 是 不 可 以 访 间 仿真 应 用 中 其 他 任何 线程 的 


状态 
/Po 


现在 我 们 已 经 准备 好 运用 有 限 差 分 运算 来 计算 一 个 阔 数 的 导数 ， 这 个 函数 的 每 个 采样 值 与 网 格 中 的 一 个 点 关联 起 来 (STR 


代表 一 个 不 同 的 线程 ) 。 具 体 来 说 ， 让 我 们 考虑 计算 一 个 微分 万 程 的 数值 解 u (x) 。 整 个 计算 被 一 系列 网 格 点 xi=ih 离 散 化 了 ， 
这 些 点 是 在 一 条 线段 上 具有 相同 步 长 h 的 点 ， 其 中 导数 由 邻近 氮 同 的 差 值 代 蔡 。 并 行 求解 程序 局 动 一 个 一 维 计算 网 格 ， 并 且 每 一 
个 线程 都 有 一 个 变量 u 用 于 保存 计算 出 来 的 结果 ui=u (X) 。 现 在 有 限 差 分 公式 中 的 系数 将 与 邻近 续 程 相 天 联 的 变量 值 组 合 在 一 
起 。 


为 什么 如 此 关心 这 一 点 呢 ” 因 为 如 果 你 写 一 个 简单 内 核 程序 像 “ 计 算 当 前 线程 中 的 一 个 变量 的 值 与 相 邻 网 格 中 其 他 相同 变量 
值 的 差 ”，CUDA 是 不 文 持 的 。 在 SIMT 并 行程 序 中 ， 每 一 个 线程 都 可 以 访问 它 目 己 本 地 的 每 一 个 内 核 变 量 ， 但 是 不 能 访问 其 他 
线程 的 本 地 变量 。 那 么 当 我 们 想 要 在 线程 间 共 享 信息 时 该 怎么 避免 这 种 限制 呢 ? 简单 的 方法 是 在 设备 的 全 局 内 存 中 申请 数组 ， 
个 线程 都 可 以 在 这 个 数组 中 读 写 它 上 自己 的 u。 我 们 将 使 用 这 种 全 局 数组 的 方法 ， 并 且说 明 这 种 方法 是 有 效 的 ， 但 是 结果 显示 这 种 
方法 并 不 是 非常 高 效 。 当 启动 一 个 非常 大 的 线程 网 格 时 ， 可 能 会 有 数 百 万 的 线程 尝试 从 相同 的 数组 读 写 数据 ， 这 将 引起 同步 以 及 
仓储 拥塞 的 问题 。 


我 们 不 会 立马 涉及 所 有 的 细节 ， 但 是 你 必须 清楚 数据 存储 的 地 方 离 处 理 器 越 远 ， 处 理 数据 所 需 时 间 越 长 这 一 基本 原则 。 在 第 
3 章 中 ， 当 我 们 第 一 次 将 数据 从 主机 痊 复 制 到 设备 病 时 ， 我 们 已 经 过 论 了 一 个 与 这 一 原则 有 关 的 应 用 程序 。 设 备 人 存储 离 多 流 处 理 
器 (SM) 更 近 ， 所 以 相 比 于 主机 存储 ， 它 是 首选 的 存储 位 置 ， 但 是 使 用 设备 存储 需要 通过 一 个 相对 较 慢 的 通信 息 线 进行 数据 传 
输 。 此 外 ， 当 确实 需要 进行 数据 传输 时 ， 我 们 希望 通过 尽量 少 的 传输 次 数 来 减少 忌 的 数据 传输 时 间 。 


我 们 现在 遇 到 了 第 二 个 天 于 “ 趣 近 走 快 ”原则 的 应 用 程序 。 在 GPU 中 有 不 同 的 和 存储 区 域 ， 并 且 应 该 优先 使 用 离 SM 更 近 的 仓 
储 。 前 面 我 们 已 经 接触 了 全 局 内 存 (所 有 的 设备 数组 存储 在 这 里 ) ， 以 及 寄 仔 器 仔 储 (每 个 线程 的 本 地 变量 存储 在 这 里 ) 。 全 局 
内 存 提供 了 绝 大 部 分 的 设备 存储 容量 ,但 它 也 是 你 在 GPU 上 所 能 访问 到 的 离 SM 最 远 的 存储 ， 所 以 全 局 内 存 提 供 了 通用 的 但 是 相 
对 较 慢 的 仓储 访问 。 (重申 一 下 它 仍然 比 访 问 主机 存储 快 得 多 。) 寄存 器 存储 离 SM 最 近 ， 所 以 它 提 供 了 最 快 的 访问 速度 ,但 是 
它 的 作用 学 围 仅 局 限于 单个 线程 内 。 


现在 我 们 来 介绍 共享 内 存 。 它 的 作用 是 缩小 存储 速度 与 处 理 器 访问 之 间 的 差距 。 共 享 内 存 和 SM 相 邻 ， 并 且 提 供 了 多 达 48KB 
的 可 被 同一 线程 块 中 所 有 线程 高 效 访 问 的 存储 空间 。 可 以 认为 共享 内 存 束 是 CUDA 为 支持 高 效 的 线程 间 合 作 所 提供 的 最 主要 的 机 
制 ， 并 且 在 许多 情况 下 (包括 许多 模板 计算 ) 使 用 共享 内 存 将 获得 巨大 的 性 能 提升 。 废 话 不 多 说 ， 让 我 们 开始 进入 实例 讲解 吧 ，。 


5.2 一 维 网 格 上 的 导数 计算 


使 用 模板 以 及 共享 内 存 进行 的 计算 包含 一 点 索引 计算 的 工作 ， 所 以 为 了 使 描述 尽量 简洁 ， 我 们 从 一 维 的 例子 开始 讲解 。 叶 然 
我 们 在 一 维 情况 下 的 运行 时 间 与 CPU 上 的 计算 相 比 可 能 得 不 到 加 速 ， 但 是 当 我 们 转移 到 二 维 情况 时 融 能 获得 巨大 的 回报 。 为 了 
便于 实际 讨论 ， 我 们 将 再 次 选取 一 个 具体 的 例子 。 我 们 选择 在 第 4 章 的 基本 有 限 差 分 方法 的 基础 上 ， 将 其 修改 成 具有 依赖 天 系 的 
变量 u 以 及 独立 变量 x， 其 中 的 x 由 具有 等 长 间 隅 h 的 离散 采样 点 xi 所 表示 。 这 样 一 阶 导 数 的 前 疝 差 分 估计 变 成 : 


Cl (uu)/h 
dx 


其 中 ui=u (xj) =u (ih) 。 第 二 个 关于 有 限 关 分 公 陈 的 应 用 程序 使 用 中 心 关 分 来 计算 二 阶 导 数 : 


d'u 
dx? 


第 一 个 例子 非常 简单 明了 : 创建 一 个 函数 sin (x) BKA, AERP Dea Asti ah Sere, (对 sin (x) 
进行 两 次 差分 仅仅 会 使 其 符号 友 生 变化 ， 所 以 很 容易 对 结果 进行 验证 。 ) 


(Xn)=(Ui1—-2u;+uj;1)/ Nr 


现在 我 们 回 到 开始 一 个 新 应 用 程序 时 通 单 会 遇 到 的 问题 : 我 们 如 何 划 分 整个 计算 任务 使 得 每 个 部 分 可 以 被 一 个 线程 所 处 理 ? 
为 了 保持 简明 ， 我 们 再 次 让 每 个 线程 计算 一 个 导数 值 ， 也 就 是 说 ， 这 引号 为 的 线程 从 设备 数组 d_in 中 读 取 必 要 的 输入 (例如 
d_in{i-1], d_in[iJ#Od_infi+1]) ， 然 后 计算 本 地 的 二 阶 导数 ， 并 将 结果 值 存储 到 输出 矩阵 d_out 趾 中。 


5.3 ASE 


本 章 聚 焦 于 一 类 特别 的 应 用 问题 ， 其 中 的 计算 线程 需要 和 网 格 中 相 邻 的 线程 合作 ， 而 不 是 完全 独立 的 。 我 们 将 与 相 邻 线程 间 
的 一 致 的 交互 统一 表述 成 模板 计算 ， 并 且 实 现 了 三 个 此 类 的 应 用 程序 : 通过 离散 值 计算 一 个 函数 的 导数 (dd_1d_global 和 
dd _1d _shared) ， 通 过 雅 可 比 迭 代 求 解 稳 态 温度 分 布 的 拉 普 拉 斯 方程 (heat_2d) ， 以 及 图 像 边缘 增强 (sharpen) 。 我 们 展 
示 了 仅 使 用 存储 在 全 局 内 存 中 的 数组 的 初始 实现 ， 然 后 说 明 如 何 使 用 共享 内 存 来 改进 实现 方案 。 最 后 我 们 使 用 NVIDIA Visual 
Profiler (NVVP) 来 检测 sharpen 程 序 的 三 种 不 同 版 本 的 性 能 : 一 个 仅 使 用 全 局 内 存 数 组 ， 第 二 个 采用 了 共享 输入 数组 ， 最 后 
一 个 版 本 是 输入 /输出 数组 都 采用 共享 内 存 。 我 们 发 现 对 于 分 析 时 所 采用 的 特定 样本 图 像 、 执 行 参 数 ， 以 及 用 于 执行 的 GPU， 将 
输入 数据 加 载 进 共享 内 存在 全 局 加 载 效率 以 及 内 核 函 数 运 行 时 间 方 面 都 产生 了 显著 的 提升 。 进 一 步 使 用 共享 内 存 来 存储 或 者 传输 
输出 数据 在 全 局 存储 效率 方面 产生 了 显著 的 提升 ， 但 是 对 于 内 核 函 数 运 行 时 间 方 面 仪 有 少量 降低 。 最 后 通过 调整 线程 块 规模 又 取 
得 了 一 点 提升 。 


这 一 状况 恰恰 反映 了 代码 性 能 优化 上 的 一 个 现实 情况 : 性 能 提升 和 你 在 优化 上 所 化 的 时 间 及 努力 可 能 并 不 成 比例 。 在 着 手 开 
始 一 项 主要 的 优化 工作 前 停 下 来 并 思考 预期 的 代价 及 可 能 的 收益 是 有 好 处 的 。 记 住 ，SIMT 并 行 模式 的 可 扩展 性 是 非常 好 的 ， 所 
以 有 时 候 正 确 的 答案 只 是 简单 地 请 求 更 多 的 处 理 器 。 你 也 应 该 记 住 阿 姆 达尔 定律 ， 它 限制 了 从 1 个 处 理 器 上 升 到 N 个 处 理 器 并 行 
所 能 获得 的 加 速 比 S: 


I 
~ (1—P)+PIN 


其 中 P 是 所 有 可 以 被 并 行 化 的 部 分 。 例 如 ， 如 果 一 个 计算 任务 的 90% 可 以 并 行 化 ， 那 么 即使 有 无 限 多 的 处 理 器 ， 剩 下 10% 的 工作 
仍然 需要 串 行 执行 ， 所 以 使 用 并 行 可 获得 的 最 大 加 速 比 是 10 倍 。 


SW) 


54 推荐 项 目 


1. 使 用 以 下 三 种 方法 改进 heat_2d 应 用 。 


a. {FAO RATA E RRI: 


1 4 1 
—||4 -20 4 
Oy}, 4 1 


Cc. 导 入 一 张 图 片 对 其 进行 划分 或 者 阅 值 化 ， 从 而 创建 一 个 不 规则 的 区 域 ， 在 该 区 域 上 使 用 边界 条 件 。 


2.heat_2d 应 用 提供 了 对 输出 图 像 的 可 视 化 以 及 一 个 迭代 计数 器 ， 你 认为 什么 可 以 作为 收敛 到 稳 态 的 可 靠 度量 值 ? 如 何 实现 
你 的 标准 ? 


3. 围 绕 sharpen 应 用 进行 实验 ， 看 下 面 的 改变 对 性 能 有 何 影响 (使 用 Visual Profiler 进 行 度量 ) : 
a. 选 择 不 同 尺寸 的 样本 图 像 。 
b. 改 变 执行 参数 (例如 线程 块 大 小 以 及 网 格 大 小 ) 。 


c. 选 择 不 同 大 小 的 模板 。 
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第 6 和 章 ” 归 约 与 原子 操作 


本 章 将 处 理 一 种 非常 有 用 的 计算 问题 ， 其 中 所 有 线程 互相 作用 最 终 只 产生 一 个 输出 。 很 多 这 样 的 运算 实际 都 是 一 种 被 称 为 归 
约 的 模式 ， 其 中 包 合 一 个 输入 数组 ， 该 数组 的 元 素 被 组 合 直 到 产生 一 个 输出 值 。 包 括 点 积 (又 称 为 内 积 或 者 数量 积 ) 、 图 像 相似 
度 测量 、 整 体 性 质 以 及 (稍微 一 般 化 的 ) 直方 图 在 内 的 应 用 都 是 这 样 的 。 


6.1 全 局 交互 的 线程 


在 第 5 章 中 ， 我 们 在 处 理 计算 线程 之 间 的 交互 方面 路 出 了 重要 的 第 一 步 ， 然 而 模板 计算 仪 仪 包括 网 格 中 相 邻 线程 之 间 的 局 部 
交互 。 现 在 我 们 准备 处 理 的 计算 问题 中 所 有 线程 都 互相 作用 来 产生 一 个 输出 。 


从 由 模板 计算 所 引出 的 邻近 线程 间 的 交互 问题 出 友 ， 在 考虑 一 般 的 线程 间 交 互 前 ， 需 要 思考 并 回答 一 些 问题 。 
问 : 实际 应 用 中 的 确 会 出 现 归 约 运算 吗 ? 


答 : 是 的 ， 它 们 经 弟 出 现 。 点 积 开始 可 能 只 是 逐 项 的 乘法 ， 但 是 最 后 需要 将 所 有 的 乘积 求 和 ;每 一 项 都 对 和 有 用 ， 所 以 该 运 
算是 归 约 。 和 矩阵 可 以 看 作 是 向 量 的 列表 ， 所 以 矩阵 -向 量 以 及 算 阵 -矩阵 乘法 包含 归 约 。 通 过 对 大 量 元 素 的 作用 进行 求 和 得 到 的 整 
体 性 质 (例如 质心 以 及 惯性 矩 ) 包含 归 约 运算 。 


问 : 归 约 和 我 们 已 经 见 过 的 应 用 有 关系 吗 ? 


答 : 是 的 。 在 使 用 雅 可 比 迭 代 求 解 稳 仿 温度 分 布 问题 时 ,我们 只 是 局 动 沈 代 ， 并 且 让 它 同 稳 仿 运 行 。 在 该 草 的 最 后 ， 有 一 个 
训练 任务 询问 停止 的 标准 是 什么 : 如 何 判 断 当 前 状态 已 经 接近 平衡 ， 所 以 可 以 停止 计算 了 ? 一 般 的 方法 是 当 进 一 步 迭 代 时 在 温度 
值 数 组 上 不 会 再 产生 明显 变化 残 停止 运算 。 评 判 变 化 是 否 明显 需要 对 温度 数组 的 变化 进行 测量 。 无 论 你 使 用 二 学 数 ( 换 句 话说 束 
是 所 有 元 素 通 过 平方 并 求 和 进行 组 合 的 多 维 毕 达 哥 拉 斯 公式 ) 或 者 是 无 穷 沁 数 (比较 数组 元 素 并 选择 较 大 的 绝对 值 进 行 组 合 ) ， 
所 有 的 元 京都 会 互相 作用 并 影响 结果 。 上 述 计算 中 包括 一 个 归 约 。 


问 : 既然 归 约 如 此 普遍 ， 那 么 为 什么 CUDA 7.5 Visual Studio 样 板 的 示例 代码 中 只 有 逐 项 操作 (加 法 ) ? 


答 : 逐 项 运算 是 易于 并 行 化 的 部 分 。 所 有 线程 间 都 没有 交互 ， 这 有 时 被 称 为 乐 不 可 支 的 并 行 。 是 的 ， 我 们 可 以 将 逐 项 的 加 法 
变 成 乘法 ， 而 且 这 样 笑 不 多 束 是 要 实现 点 乘积 了 ; 剩 下 的 束 是 对 所 有 逐 项 乘积 求 和 ， 而 这 正 是 并 行 化 中 最 具 挑 战 性 的 部 分 。 


问 : 既然 归 约 这 么 重要 ， 是 不 是 应 该 有 实现 好 的 代码 库 可 以 供 我 使 用 ? 


答 : 是 的 ， 有 可 用 的 库 实现 了 归 约 。 在 本 草 中 我 们 提供 了 足够 的 背景 知识 ， 所 以 你 可 以 实现 目 己 的 归 约 。 我 们 将 在 第 8 草 中 
讨论 使 用 库 来 实现 归 约 ， 如 果 你 急需 实现 归 约 功能 你 也 可 以 现在 丈 阅 读 该 草 。 


看 完 问答 部 分 后 ， 让 我 们 从 点 积 应 用 开始 实现 一 些 特别 的 归 约 。 


6.2 实现 parallel dot 


我 们 先 创建 一 个 叫 作 parallel_dot 的 应 用 来 并 行 计算 一 对 输入 向 量 的 点 积 。 输 入 向 量 a 和 b 存 储 在 两 个 长 度 都 为 N 的 数组 中 ， 
输出 是 两 个 数组 相应 元 素 的 乘积 ， 之 后 求 和 得 到 的 单个 标量 (存储 在 变量 res 中 ) : 


N-I 


res= ? alidx|*blidx | 
idx=0 


因为 每 个 元 素 都 会 对 res 产 生 影响 ， 所 以 这 是 一 个 典型 的 归 约 问题 (可 能 也 是 最 常见 的 归 约 ) 。 任 何 归 约 都 需要 一 个 变量 
(如 res) 用 于 累加 所 有 线程 的 贡献 。 在 CUDA 的 SIMT 并 行 模 型 中 ， 由 一 个 线程 创建 的 私有 变量 (一 般 存储 在 寄存 器 中 ) 不 能 被 
任何 其 他 线程 访问 。 而 被 声明 为 _shared_ 的 变量 (存储 在 线程 块 的 共享 内 存 中 ) 不 能 被 线程 块 外 的 任何 线程 访问 。 为 了 避免 这 
些 限制 ， 归 约 需要 一 个 在 内 核 外 部 声明 并 存储 在 全 局 内 存 中 的 罕 加 变量 。 


一 个 入 单 的 万 法 是 让 每 个 线程 从 全 局 内 存 的 输入 数组 中 读 取 一 对 相应 的 元 素 ， 将 它们 相 习 ,并 将 结果 与 存储 在 全 局 办 加 变量 
d_res (最 终结 果 的 设备 端 版 本 ， 在 所 有 计算 完成 后 将 被 复制 回 主机 端的 res 中 ) 中 的 值 相 加 。 如 果 你 刚 开始 熟悉 CUDA， 上 述 方 
法 即使 没 让 你 恐惧 或 者 厌 秋 ， 至 少 也 会 引起 一 点 反感 。 是 的 ， 输 入 数据 至 少 需要 从 全 局 内 存 中 读 取 一 次 ， 那 是 无 法 避免 的 。 然 
而 ， 让 每 个 线程 都 将 目 己 的 结果 写 入 全 局 内 存 中 并 不 是 什么 好 主意 。 通 过 采取 数据 块 的 万 法 ， 我 们 将 大 的 输入 向 量 分 割 成 线程 块 
大 小 的 片段 ， 每 个 线程 块 只 更 新 一 次 d_res (而 不 是 每 个 线程 更新 一 次 ) ,这样 可 以 大 大 减 小 全 局 内 存 拥塞 。 这 种 万 案 简 述 如 


. 创建 一 个 共享 内 存 数 组 用 于 存储 输入 数组 在 对 应 分 块 中 相应 元 素 的 乘积 。 
- 在 继续 处 理 之 前 进行 同步 ， 以 保证 上 述 共享 数组 已 经 完全 填 满 。 


. 指定 一 个 线程 (例如 线程 threadIdx.x==0) 将 线程 块 共享 数组 〈 块 中 的 所 有 线程 都 可 以 访问 其 中 的 数据 ) 中 所 有 值 循 环 累 


加 并 存储 到 一 个 寄存 器 变量 blockSum 中 。 
- 进行 一 次 全 局 内 存 传输 〈 针 对 整个 线程 块 ) 将 blockSum 加 到 全 局 累加 变量 d_res 上 。 


代码 清单 6.1 展 示 了 使 用 共享 内 存 实 现 的 点 积 内 核 消 数 dotKernel () 以 及 包 半 国 数 dotLauncher () 。 像 通常 一 样 ， 我 们 包 
含 头 文件 以 及 标准 输入 /输出 库 ， 然 后 定义 包括 TBP (每 线程 块 线程 数 ) 在 内 的 一 些 常量 和 我 们 很 快 将 介绍 的 ATOMIC。 在 第 
8~10 行 ， 内 核 函 数 一 开 始 像 往常 一 样 计 算 全 局 和 共享 索引 ， 并 且 检 查 边 界 。 共 享 数 组 s_prod 在 第 12 行 声明 。 (s 提醒 我 们 这 个 
数组 是 共享 的 ， 而 prod 说 明 它 将 存储 输入 数组 中 对 应 元 素 的 乘积 。) 在 第 13 行 ， 输 入 数组 全 局 索引 处 的 元 素 相 乘 ， 并 将 乘积 仓 
储 在 s_prod 的 局 部 索引 处 。 第 14 行 的 _syncthreads () 保证 在 任何 线程 继续 运行 之 前 s_prod 数 组 已 经 锌 完全 填 满 。 在 我 们 的 做 
法 中 只 有 第 一 个 线程 (threadidx.x==0) 需要 继续 运行 。 它 在 第 17 行 初始 化 寄存 器 变量 blockSum=0， 然 后 在 第 17~20 行 中 ， 
在 共享 数组 索引 范围 内 将 s_prod 循 环 办 加 到 blockSum 上 。 我 们 已 经 在 第 21 行 包括 了 一 条 打印 语句 ， 这 样 你 就 可 以 检查 
blockSum 值 ， 并 清楚 地 看 到 所 有 线程 块 并 不 是 按 指定 顺序 执行 的 。 虽 然 线 程 块 内 的 累加 可 以 用 更 加 并 行 化 的 风格 进行 ， 但 是 让 
我 们 在 创建 并 测试 完 一 个 初始 版 本 的 parallel dot 之 前 暂且 先 讨 论 这 样 一 个 可 选 方 案 。 


最 后 ， 在 第 23~26 行 ， 一 个 块 中 乘积 的 贡献 值 blockSum 被 加 到 全 局 罕 加 变量 d_res 中 。 注 意 这 里 实际 友 生 的 是 一 个 读 - 写 序 
列 操作 ， 而 且 通 过 #define 设 置 的 ATOMIC 值 被 编码 成 两 种 完全 不 同 的 运行 方式 。 当 #define ATOMIC 0 时 ， 将 进行 普通 的 加 
法 。 当 #define ATOMIC 1 时 ， 将 调用 atomicAdd (d res, blockSum) Bavsd res 的 值 票 加 到 blockSsum。 让 我 们 先 看 看 这 


个 工程 所 需要 的 其 他 文件 ， 测 试 运行 它们 ， 看 看 实际 工作 情况 。 


代码 清单 6.1 parallel dot/kernel.cu 包 括 dotKernel () 以 及 包装 函数 dotLauncher () 


1 #include "kernel.h" 

2 #include <stdio.h> 

3 #define TPB 64 

4 #define ATOMIC 1 // 0 for non-atomic addition 

5 

6 global | 

7 void dotKernel(int *d res, const int *d_a, const int *d b, int n) { 
8 const int idx = threadIdx.x + blockDim.x * blockIdx.x; 

9 if (idx >= n) return; 

10 const int s_idx = threadIdx.x; 

11 

12 shared int s_prod[TPB]; 

13 s prod[{s idx] = d alidx] * d_b[idx] ; 

14 __syncthreads() ; 

15 

16 if (s idx == 0) { 

17 int blockSum = 0; 

18 for (int j = 0; j < blockDim.x; ++j) { 

19 blockSum += s prod[j]; 

20 } 

21 printf ("Block $d, blockSum = %d\n", blockIdx.x, blockSum) ; 
22 // Try each of two versions of adding to the accumulator 
23 if (ATOMIC) { 

24 atomicAdd(d res, blockSum) ; 

25 } else { 

26 *d res += blockSum; 

27 } 

28 } 

29 } 

30 

31 void dotLauncher(int *res, const int *a, const int *b, int n) { 
32 int *d res; 

33 int *d a= 0; 

34 int *d b = 0; 

35 

36 cudaMalloc(&d_ res, sizeof(int))j; 

37 cudaMalloc(&d_a, n*sizeof(int)); 

38 cudaMalloc(&d_b, n*sizeof(int)); 

39 

40 cudaMemset (d res, 0, sizeof (int)); 

41 cudaMemcpy (da, a, n*sizeof(int), cudaMemcpyHostToDevice) ; 
42 cudaMemcpy (d_b, b, n*sizeof (int), cudaMemcpyHostToDevice) ; 
43 

44 dotKernel<<<(n + TPB - 1)/TPB, TPB>>>(d_res, d a, d b, n); 
45 cudaMemcpy (res, d res, sizeof (int), cudaMemcpyDeviceToHost) ; 
46 

47 cudaFree (d_res); 


48 cudaFree (d_a); 
49 cudaFree (d_b); 


代码 清单 6.2 展 示 了 头 文 件 kernel.h。 其 中 包含 防止 重复 包含 的 宏 定义 ， 以 及 使 包 六 函数 dotLauncher () 可 以 被 main () 
调用 的 原型 品 明 。 


代码 清单 6.2 parallel dot/kernel.h 


1 #ifndef KERNEL H 
#define KERNEL H 


2 
3 
4 void dotLauncher(int *res, const int *a, const int *b, int n); 
5 
6 


#endif 


parallel_dot 应 用 的 main.cpp 如 代码 清单 6.3 所 示 。 一 开始 它 声 明了 cpu_res (用 于 存储 CPU 版 本 的 结果 ) 和 gpu_res (用 于 
存储 GPU 版 本 的 结果 ) 。 第 9 行 和 第 10 行 声明 指针 型 输入 数组 a 和 b。 第 9~16 行 分 配 并 初始 化 了 输入 数组 的 存储 空间 (为 了 保持 
简单 所 有 元 素 都 为 1) 。 第 18~21 行 计算 并 向 控制 台 打 印 了 串 行 参考 结果 。 第 23 行 调用 了 内 核 包 妆 国 数 dotLauncher () ， 并 且 
在 第 24 行 向 控制 台 打 印 了 并 行 GPU 计算 结果 。 最 后 我 们 释放 为 输入 数组 分 配 的 内 人 存 。 


代码 清单 6.3 parallel dot/main.cpp 


1 #include "kernel.h" 

2 #include <stdio.h> 

3 #include <stdlib.h> 

4 #define N 1024 

5 

6 int main() { 

7 int cpu res = 0; 

8 int gpu_res = 0; 

9 int *a = (int*)malloc(N*sizeof (int) ) ; 
10 int *b = (int*)malloc(N*sizeof (int) ); 
Li 
12 //Initialize input arrays 
se for (int i = 0; i < N; ++i) { 

14 afi] = 1; 

15 blij = 1; 

16 } 

17 

18 for (int i = 0; i < N; ++i) { 

19 cpu res += ali] * b[i]; 

20 } 

21 printf ("cpu result = td\n", cpu res); 
22 

23 dotLauncher(&gpu_ res, a, b, N); 

24 printf ("gpu result = td\n", gpu res); 
25 

26 free(a) ; 

27 free (b); 

28 return QO; 

29 } 


代码 清单 6.4 中 给 出 了 用 于 在 Linux 下 编译 该 应 用 的 Makefile。 


代码 清单 6.4 parallel dot/Makefile 


NVCC = /usr/local/cuda/bin/nvcc 
NVCC FLAGS = -g -G -Xcompiler -Wall 


all: main.exe 


main.exe: main.o kernel.o 
S(NVCC) $^ -o $@ 


O ~] 中 山上 心 WN FE 


9 main.o: main.cpp kernel.h 
10 S(NVCC) S(NVCC FLAGS) -c $< -o $@ 


12 kernel.o: kernel.cu kernel.h 
13 S(NVCC) S(NVCC FLAGS) -c $< -o $@ 


我 们 已 经 看 完了 所 有 代码 ， 现 在 可 以 生成 并 执行 该 应 用 了 。 


代码 中 的 参数 值 指定 输入 数组 含有 1024 个 元 素 (每 一 个 都 是 1) ， 并 且 每 个 线程 块 有 64 个 线程 ， 所 以 当 你 执行 这 个 应 用 时 ， 
应 该 可 以 获得 可 控制 的 几 个 输出 : 一 行 是 作为 参照 的 CPU 的 结果 ， 一 行 是 每 个 线程 块 的 这 引号 和 块 内 的 和 ， 一 行 是 GPU 的 结 
果 。 除 此 之 外 ， 输 出 结果 应 该 是 可 明确 的 : 每 个 线程 块 的 和 应 该 是 64， 而 最 终 的 结果 应 该 是 1024。 


现在 让 我 们 将 parallel dot/kernel.cu 的 第 4 行 改 为 #define ATOMIC 0。 重 新 生成 并 运行 该 应 用 看 看 会 发 生 什么 。 你 的 结果 
应 该 和 图 6.1 中 显示 的 parallel_dot 的 样 例 输出 相似 ， 并 且 有 几 个 值得 注意 的 特点 。 在 第 1 行 我 们 可 以 看 到 CPU 正 确 地 计算 出 分 别 
具有 1024 个 元 素 为 1 的 向 量 的 点 积 结果 为 1024。 在 接 下 来 的 第 16 行 ， 我 们 看 到 每 个 长 度 为 64 的 线程 块 计算 出 正确 的 点 积 贡献 
值 ， 并 且 我 们 再 次 发 现 线程 块 的 执行 顺序 是 不 受 控 制 的 。 在 倒数 第 2 行 ， 我 们 发 现 虽 然 每 个 线程 块 都 计算 出 了 正确 的 贡献 值 ， 但 
是 全 局 累加 器 最 终 却 没有 得 到 预期 的 1024。 在 这 个 例子 中 最 终结 果 是 640， 也 就 是 10x64， 而 不 是 16x64， 从 结果 来 看 有 6 个 线 
程 块 的 贡献 值 丢 失 了 。 (注意 简单 地 重新 执行 该 应 用 会 产生 不 同 的 线程 块 执行 顺序 以 及 不 同 的 gpu_res 值 。 试 着 重复 运行 你 的 应 
用 ， 并 观察 返回 值 的 变化 。 ) 


到 底 什 么 地 方 出 错 了 呢 ?16 个 线程 块 中 每 块 的 线程 0 从 全 局 内 存 中 读 取 d_res 值 ， 加 上 它 的 blockSum， 并 将 结果 存 回 d_res 
存储 的 内 存 位 置 。 问 题 是 这 些 操作 的 结果 依赖 于 它们 执行 的 顺序 上， 并且 我 们 无 法 控制 该 顺序 。 


具体 来 说 ， 让 我 们 考虑 线程 块 11 (blockldx.x==11) 和 线程 块 10 (blockldx.x==10) ， 根 据 图 6.1 的 输出 ， 它 们 恰好 是 最 
先 开 始 执 行 的 两 个 线程 块 。 线 程 块 11 恰 好 第 一 个 执行 ， 并 且 它 的 0 号 线程 从 d_res 中 读 到 0。 同 样 线程 块 11 中 的 0 号 线程 会 加 上 它 
的 blockSum 值 64， 并 将 0+64 和 存储 回 d_res 所 在 的 内 存 位 置 。 线 程 块 10 的 0 号 线程 也 会 遵循 同样 的 指令 序列 ， 但 是 和 线程 块 11 的 
执行 顺序 无 法 保证 。 如 果 线 程 块 10 恰 好 在 线程 块 11 更 新 完 d_res 值 之 前 读 取 了 它 的 值 ， 那 么 线程 块 10 也 会 读 到 0 并 写 回 64。 如 果 
线程 块 10 恰 好 在 线程 块 11 更 新 完 d_res 值 之 后 读 取 其 值 ， 那 么 线程 块 10 将 读 到 64 并 写 回 128。 


C:\Windows\system32\cmd.exe 


blockSum 
blockSum 
blockSum 
blockSum 
blockSum 
blockSum 
blockSum 
blockSum 
blockSum 
, blockSum 


blockSum 
_3, blockSum = 
_15, blockSum = 
gpu result = 640 
Press any key to continue . 


图 6.1 patallel _ dot 应 用 的 初始 输出 


这 种 情况 被 称 为 竞争 条 件 ， 其 计算 结果 依赖 于 操作 顺序 ， 并 且 顺 序 无 法 控制 ， 而 竞争 条 件 会 造成 未 定义 的 行为 。 为 了 解决 这 
个 问题 ， 我 们 需要 对 执行 顺序 进行 一 定 控制 一 一 企 这 个 例子 中 ， 需 要 确保 当 一 个 特定 线程 占用 了 全 局 累加 变量 后 (例如 为 了 执 
行 读 -修改 - 写 操 作 序列 ) ， 任 何其 他 线程 在 该 线程 完成 它 的 操作 序列 之 前 都 不 可 以 占用 这 个 全 局 累加 变量 。 


CUDA 中 用 于 处 理 竞 争 条 件 的 机 制 是 一 组 被 称 为 原子 操作 的 阔 数 。 单 词 原 子 (atom) RES, BRERA. 一 
个 原子 消 数 通过 一 种 类 似 于 图 书馆 图 书 借阅 模式 的 机 制 将 读 -修改 - 写 操作 序列 当 作 一 个 不 可 分 割 的 单元 进行 执行 。 当 一 个 原子 操 
作 读 取 一 个 值 后 ， 该 变量 即 被 “ 检 出 ”， 并 且 不 可 被 其 他 操作 读 取 。 当 操作 序列 的 修改 - 写 部 分 完成 后 ， 访 变量 被 “归还 ”到 材 
中 从 而 可 以 再 次 被 其 他 访问 者 读 取 。 


好 消息 是 原子 操作 的 确 可 以 解决 我 们 的 竞争 问题 。 坏 消息 是 这 需要 一 定 的 代价 : 原子 操作 强制 一 些 捉 行 化 ， 并 会 造成 一 定 的 
减速 。 这 很 好 地 提醒 了 我 们 ， 即 使 速度 很 快 ， 但 如 果 结 果 不 对 ， 那 也 算 不 上 计算 加 速 。 为 了 获得 正确 的 结果 ， 我 们 需要 使 用 原子 
操作 ， 而 除 此 之 外 都 应 该 避免 原子 操作 。 


现在 我 们 已 经 提出 使 用 原子 操作 来 解决 竞争 条 件 问题 了 ， 让 我 们 将 parallel_dotykernel.cu 的 第 4 行 恢 复 成 #define ATOMIC 
1 来 加 以 验证 。 重 新 生成 你 的 应 用 并 运行 尼 ， 你 将 会 看 到 一 个 和 图 6.2 相 似 的 结果 ， 其 中 显示 了 正确 的 结果 1024。 你 应 该 多 次 运 
行 该 应 用 来 确信 所 产生 的 正确 结果 是 可 靠 的 。 


C:\Windows\system32\cmd.exe 


cpu result = 1024 
Block_2, blockSum 
Block_0, blockSum 
Block_11, blockSum 
Block_3, blockSum 
Block_8, blockSum 
Block_1, blockSum 
Block_14, blockSum 
Block_7, blockSum 
Block_13, blockSum 
Block_4, blockSum 
Block_5, blockSum 
Block_10, blockSum 
Block_6, blockSum 
Block_12, blockSum 
Block_9, blockSum = 
Block_15, blockSum = 
gpu result = 1024 
Press any key to continue 


图 6.2 使 用 atomicAdd () 的 patallel _ dot 应 用 的 正确 输出 


除了 在 这 个 例子 中 能 满足 我 们 需求 的 atomicAdd () ，CUDA 还 提供 了 另外 10 个 原子 函数 : atomicSub () 、 
atomicExch () 、atomicMin () 、atomicMax () 、atomiclnc () 、atomicDec () 、atomicCAS () (CAS 表 示 比 较 并 
交换 ) 以 及 三 个 按 位 操作 函数 atomicAnd () 、atomicOr () 和 atomicXor () 。 详 细 信息 请 参考 《CUDA C Programming 


Guide) [1], 


一 个 浮 点 类 型 的 警告 


注意 标准 的 归 约 定义 包含 一 个 满足 结合 律 的 2- 输 入 、1- 输 出 操作 ， 这 很 好 地 描述 了 我 们 通常 所 认为 的 加 法 运算 。 然 而 ， 浮 点 
加 法 只 是 近似 满足 结合 律 ; 对 一 个 浮 点 数组 求 和 所 得 的 准确 结果 依赖 于 运算 顺序 ， 并 且 当 你 的 求 和 元 素 中 存在 量 级 上 的 巨大 差异 
时 ， 改 变 求 和 顺序 将 会 产生 很 大 的 影响 。 这 不 是 一 本 关于 数值 分 析 的 书 ， 所 以 我 们 不 会 讨论 所 有 的 细节 (更 多 相关 内 容 参 见 
David Goldberg “What Every Computer Scientist Should Know About Floating-Point Arithmetic” PI) ， 但 是 这 的 确 说 明了 为 什么 我 
们 在 第 一 个 例子 中 使 用 int 作 为 输入 数组 类 型 。 


= | es es 


EATS PETE RR Pe DTI). alle, TEA MUTA BS REAR FABIA. (我 们 将 选 
择 一 个 州 的 地 图 作为 物体 ， 但 是 你 可 以 选择 自己 的 图 像 ， 背 景区 域 将 作为 物体 的 外 部 。) AL (centroid) 融 是 简单 地 求 物体 内 
所 有 像素 的 平均 位 置 。 但 是 我 们 也 可 以 认为 形 心 是 整个 图 像 所 有 像素 位 置 的 加 权 平 均值 ， 权 重 因 子 是 如 下 消 数 : 


形 心 的 列 坐 标 c 是 通过 将 所 有 像素 的 询 系 引 乘 上 权重 值 乙 后 进行 加 和 ， 并 除 以 所 有 权重 的 和 得 到 的 ， 行 坐标 "也 是 相似 的 。 


0, {col, row} E exterior 
Xcol. row 一 | 


y) 


(因为 我 们 使 用 cf0r 作 为 形 心 坐标 ， 所 以 称 列 和 行 泰 引 为 col 和 row。) 形 心 坐标 如 下 所 示 : 


C= 


其 中 求 和 是 针对 所 有 像素 的 ， 也 束 是 说 col 的 取 值 学 围 是 从 0 到 width-1，row 的 取 值 沁 围 是 从 0 到 height-1。 


如 代码 清单 6.5 至 代码 清单 6.7 所 示 ，centroid_2d 应 用 的 实现 包含 通常 的 内 核 、 头 文件 ， 以 及 main 文 件 。 由 于 该 应 用 需要 读 
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写 图 像 ， 所 以 也 包含 了 第 5 草 中 介绍 的 用 于 图 像 处 理 包 的 ClImg.h 头 文件 。 


让 我 们 先 看 看 代码 清单 6.5， 其 中 包含 了 centroidKernel () 以 及 包装 函数 centroid-Parallel O 的 代码 。 


代码 清单 6.5 centroid 2d/kernel.cu 
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#include "kernel.h" 
#include <stdio.h> 
#include <helper math.h> 
#define TPB 512 


_ global | 
void centroidKernel (const uchar4 *d_img, 


int *d centroidcol, 
int *d centroidRow, int *d pixelCount, 
int width, int height) { 


_ shared uint4 s img [TPB]; 
const int idx = threadIdx.x + blockDim.x * blockIdx.x; 
const int s idx = threadIidx.x; 
const int row = idx/width; 
const int col = idx - row*width; 
if ((d_img[idx].x < 255 || d_img[idx].y < 255 || 
d img[idx].z < 255) && (idx < width*height)) { 
s img[{s idx] .x = col; 
s img[s_idx].y = row; 
s img[s_ idx] .z = 1; 
} 
else { 
s img[s idx] .x = 0; 
s Imgls idx] .y = 0; 
s Imgls idx].z = 0; 
} 
__syncthreads() ; 
// for (int s = 1; s < blockDim.x; s *= 2) { 
Fi int index = 2*s*s idx; 
FJ if (index < blockDim.x) { 


{col, row} E interior 


33 ji s img[index] += s_img[indext+s] ; 
34 H } 

35 // __syncthreads() ; 

36 // } 

a7 

38 for (int s = blockDim.x/2; s > 0; S >>= 1) { 
39 at te 20x = S { 

40 s img[s idx] += s img[s idx + s]; 

41 } 

42 __syncthreads() ; 

43 } 

44 

45 if (s idx == 0) { 

46 atomicAdd(d centroidCol, s_img[0].x); 

47 atomicAdd(d centroidRow, s_img[0].y); 

48 atomicAdd(d pixelCount, s img[0].z); 

49 } 

50 } 

SL 

52 void centroidParallel(uchar4 *img, int width, int height) { 
53 uchar4 *d img = 0; 

54 int *d centroidRow = 0, *d centroidCol = 0, *d pixelCount = 0; 


55 int centroidRow = 0, centroidCol = 0, pixelCount = 0; 
56 
57 // Allocate memory for device array and copy from host 


58 cudaMalloc(&d_ img, width*height*sizeof (uchar4) ) ; 
59 cudaMemcpy(d img, img, width*height*sizeof(uchar4), 


60 cudaMemcpyHostToDevice) ; 

61 

62 // Allocate and set memory for three integers on the device 
63 cudaMalloc(&d centroidRow, sizeof (int)) ; 

64 cudaMalloc(&d centroidCol, sizeof (int)) ; 

65 cudaMalloc(&d pixelCount, sizeof(int) ); 

66 cudaMemset (d_centroidRow, 0, sizeof (int)); 

67 cudaMemset (d centroidCol, 0, sizeof (int)); 

68 cudaMemset (d pixelCount, 0, sizeof(int)); 

69 

70 centroidKernel<<<(width*height + TPB - 1)/TPB, TPB>>>(d_img, 
71 d centroidCol, d_centroidRow, d pixelCount, width, height); 
Ta 

73 // Copy results from device to host. 

74 cudaMemcpy (&centroidRow, d _centroidRow, sizeof(int), 

75 cudaMemcpyDeviceToHost) ; 

76 cudaMemcpy (&centroidCol, d_centroidCol, sizeof(int), 

77 cudaMemcpyDeviceToHost) ; 

78 cudaMemcpy (&pixelCount, d pixelCount, sizeof(int), 

79 cudaMemcpyDeviceToHost) ; 

80 

81 centroidCol /= pixelCount; 

82 centroidRow /= pixelCount; 

83 

84 printf ("Centroid: {col = %d, row = %d} based on %d pixels\n", 
85 centroidCol, centroidRow, pixelCount) ; 

86 


87 // Mark the centroid with red lines 


88 for (int col = 0; col < width; ++col) { 
89 img [centroidRow*width + col] .x = 255; 
90 img [centroidRow*width + col].y = 0; 
91 img [centroidRow*width + col].z = 0; 
92 } 

93 for (int row = 0; row < height; ++row) { 
94 img [row*width + centroidCol].x = 255; 
95 img [row*width + centroidCol].y = 0; 
96 img [row*width + centroidCol].z = 0; 
97 

98 


99 // Free the memory allocated 
100 cudaFree (d_img) ; 


101 cudaFree(d centroidRow) ; 
102 cudaFree(d centroidcCol) ; 
103 cudaFree(d pixelCount) ; 

104 } 


内 核子 数 一 开 始 声 明了 一 个 共享 数组 s img 以 及 通 剃 的 一 维系 引 : 全 局 内 存 数 组 的 idx 以 及 共享 内 存 数组 的 sidx。row 和 和 col 
由 一 维 达 引导 出 (而 不 是 从 二 维 内 核 局 动 参数 导出 ) 并 且 只 在 第 19 行 和 第 20 行 的 赋值 中 使 用 。 事 实 上 局 动 一 个 一 维 内 核 束 足 够 
T (FBR) 。 使 用 二 维 所 造成 的 改变 是 我 们 需要 累加 两 个 坐标 上 的 贡献 值 ， 而 不 仅仅 是 一 个 坐标 。 在 计算 每 一 个 坐标 时 我 
们 也 需要 计算 权重 的 和 (在 本 例 中 歼 是 内 部 像素 的 个 数 ， 非 日 色 像 素 ) ， 所 以 我 们 共计 算 三 个 和 ( 行 和 的 贡献 值 、 列 和 的 贡献 值 
以 及 像素 个 数 贡献 值 ) 。 为 了 保存 这 三 个 和 ， 我 们 可 以 使 用 三 个 独立 的 数组 ， 但 是 这 里 我 们 选择 使 用 一 个 unit4 数 组 s img。 第 
一 个 分 量 s_img[].x 存 储 列 页 献 值 ， 第 二 个 分 量 s_img[.y 存 储 行 页 献 值 ， 第 三 个 分 量 s_img[].z 存 放 像 素 个 数 贡 献 值 。 (我 们 只 需 
要 存放 三 个 值 ， 所 以 应 该 使 用 uint3， 但 我 们 选择 uint4 是 因为 它 可 以 直接 泛 化 到 三 维 形 心计 算 ， 并 且 两 个 uint4 变 量 使 用 32 字 书 
内 存 ， 这 对 高 效 的 内 存 事 务 是 一 个 很 合适 的 大 小 。) 


第 17 行 和 第 18 行 测试 了 像素 索引 以 及 颜色 值 。 如 果 像 素 索 引 idx 超 出 了 输入 数组 ， 或 者 该 索引 处 图 像 像素 是 白色 ， 它 就 被 当 
作 一 个 外 部 像素 (并 且 0 被 存储 到 x、y 和 和 z 通 道上 ) 。 否 则 ， 该 像素 的 贡献 值 被 加 到 共享 内 存 块 中 。 对 _syncthreads () 的 调用 
确保 在 任何 线程 进行 求 和 之 前 ， 该 线程 块 所 需 用 来 求 和 的 值 都 已 经 被 存储 到 共享 内 存 数组 中 了 。 


剩 下 的 就 是 将 共享 数组 中 的 贡献 值 求 和 ， 并 使 用 原子 操作 增加 全 局 累加 器 来 避免 资源 竞争 。 在 点 积 例子 中 ， 我 们 采用 了 非常 
简单 且 完 全 串 行 的 方法 ， 选 择 一 个 特定 的 线程 来 计算 线程 块 的 和 。 我 们 提 到 有 更 加 细 粒 度 的 并 行 (也 更 加 高 效 的 ) 方法 ， 而 且 事 
实 上 有 很 多 。 在 2007 年 的 一 次 著名 演讲 中 ，Mark Harris 演 示 了 7 个 越 来 越 高 效 的 而 且 颇 具 技 巧 性 的 ) 改进 日。 如 果 你 有 一 个 
计算 能 力 3.0 或 以 上 的 GPU (基于 Kepler 架 构 ) ， 那 么 还 有 一 系列 其 他 高 效 归 约 的 技巧 ， 在 Parallel Forall 情 客 所 中 有 详细 说 明 。 
此 处 并 不 假设 有 Kepler 架 构 ， 并 限制 我 们 只 使 用 Kepler 架 构 之 前 GPU 所 能 使 用 的 两 个 有 效 的 技术 。 第 30~36 行 (被 注释 了 ， 但 
是 你 可 以 拿 来 实验 ) 实现 了 第 一 种 在 线程 块 内 并 行 求 和 的 方法 。 基 本 的 思想 是 每 隔 一 个 线程 (相应 的 跨度 为 2) 用 它 本 身 索引 所 
在 值 加 上 相 邻 索引 的 值 。 对 所 有 线程 进行 同步 之 后 ， 将 跨度 加 倍 到 4， 并 使 每 第 四 个 线程 将 它 本 身 索引 所 在 值 加 上 比 它 高 两 个 位 
置 处 的 值 。 只 要 跨度 小 于 线程 块 大 小 ， 我 们 就 不 断 同步 、 加 倍 跨度 ， 并 求 和 。 根 据 循环 终止 条 件 。 线 程 块 的 和 最 终 保存 在 索引 0 
处 ， 而 这 个 值 可 以 使 用 atomicAdd () 加 到 全 局 累加 器 中 。 这 种 方法 取得 了 显著 的 进步 ， 将 线程 块 内 求 和 所 需 的 串 行 步 数 从 
O (blockDim.x) 降低 到 O (log (blockDim.x) ) ， 但 是 在 内 存 访问 效率 上 存在 不 足 。 (关于 大 0 标记 的 详细 信息 推荐 参 
Abl, ) 


第 38~43 行 展示 了 一 个 在 内 存 访问 方面 更 加 高 效 的 实现 。 它 也 进行 类 似 的 数 对 求 和 ， 但 它 是 将 数组 相距 较 远 的 一 对 元 素 加 起 
来 并 将 结果 存放 到 相 邻 的 位 置 上 ， 而 不 是 将 一 对 相 邻 元 素 加 起 来 并 将 结果 存放 到 数组 中 相距 一 段 距离 的 部 分 。 请 参看 四 获得 进 一 
步 的 细节 。 (注意 这 里 的 求 和 针对 的 是 uint4， 并 且 包 含 了 helper_math.h 来 提供 向 量 运算 的 定义 。 注 意 在 程序 生成 期 间 花 些 心 
思 ， 确 保 这 里 的 代码 恰当 地 进行 了 集成 。) 


第 22~104 行 给 出 了 包 委 国 数 centroidParallel () 的 实现 ， 该 销 数 准备 并 调用 内 核 局 动 尔 数 。 希 望 这 里 看 起 来 不 那么 令 人 意 
外 ， 而 且 这 里 只 有 少量 需要 特别 注意 的 要 点 。 第 53 行 和 第 54 行 声明 了 指向 图 像 数据 以 及 三 个 全 局 设备 内 存 中 蛇 加 器 变量 的 指 
针 。 第 55 行 声明 的 主机 端 变 量 将 保存 来 自 显 存 的 值 。 崇 接着 是 一 系列 内 存 操作 ， 用 于 为 输入 数据 以 及 全 局 累加 器 变量 分 配 和 初 
始 化 必要 的 全 局 内 人 存 。 第 70 行 和 第 71 行 局 动 了 内 核 ， 融 像 上 面 提 到 的 ， 值 得 注意 的 是 这 里 只 需要 一 个 一 维 内 核 。 第 74~85 行 将 
结果 复制 回 主 机 ， 并 且 向 控制 台 打 印 一 个 摘要 。 第 88~ 97 行 使 用 红色 通道 创建 垂 直 和 水 平 轴 ， 使 用 图 像 中 心 作 为 原点 ， 最 后 内 核 
释放 所 分 配 的 内 存 。 


代码 清单 6.6 中 的 头 文件 centroid_2d/kernel.h 包 含 CUDA 内 建 向 量 类 型 的 前 置 声明 ， 以 及 将 在 main.cpp 中 被 调用 的 函数 
centroidParallel () 的 原型 。main.cpp 在 代码 清单 6.7 中 展示 。 


代码 清单 6.6 centroid 2d/kernel.h 


#ifndef KERNEL H 
#define KERNEL H 


struct uchar4; 


void centroidParallel(uchar4 *img, int width, int height); 
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#endif 


代码 清单 6.7 中 展示 的 文件 centroid 2d/main.cpp 开 始 是 通常 使 用 的 #include 和 #define 指 令 ， 并 使 用 ClImg 库 导入 和 导出 图 
像 。centroidParallel O 函数 是 包装 函数 ， 它 调用 内 核 函 数 centroidKernel () ， 并 上 且 一 旦 内 核 调用 完成 ， 它 将 保存 结果 图 
像 。 


代码 清单 6.7 centroid 2d/main.cpp 


1 #include "kernel.h" 

2 #define cimg display 0 

3 #include "CImg.h" 

4 #include <cuda runtime .h> 
5 

6 


int main() 


7 1 
8 // Initializing input and output images 
9 cimg library::CImg<unsigned char> inImage("wa state.bmp") ; 
10 cimg library: :CImg<unsigned char> outImage(inImage, "xyzc", 0); 


11 int width = inImage.width() ; 
12 int height = inImage.height () ; 


L3 

14 // Initializing uchar array for image processing 

15 uchar4 *imgArray = (uchar4*)malloc (width*height*sizeof (uchar4) ) ; 
16 

E7 // Copying CImg data to image array 

18 for (int row = 0; row < height; ++row) { 

19 for (int col = 0; col < width; ++col) { 

20 imgArray [row*width + col] .x = inImage(col, row, 0); 
| imgArray [row*width + col].y = inImage(col, row, 1); 
22 imgArray [row*width + col].z = inImage(col, row, 2); 
23 } 

24 } 

ae 

26 centroidParallel(imgArray, width, height) ; 

oe 

28 // Copying image array to CImg 

29 for (int row = 0; row < height; ++row) { 

30 for (int col = 0; col < width; ++col) { 

che outImage(col, row, 0) = imgArray [row*width + col] .x; 
32 outImage(col, row, 1) = imgArray[row*width + col].y; 
33 outImage(col, row, 2) = imgArray[row*width + col].z; 
34 } 

35 } 

36 

37 out Image .save ("wa state out.bmp") ; 

38 free(imgArray) ; 

39 } 


除了 指定 一 个 华盛顿 州 的 地 图 作为 输入 文件 外 ，main () 函数 没有 太 多 新 特点 。 你 可 以 选择 一 个 不 同 的 输入 文件 ， 但 是 无 
论 你 选择 什么 ， 都 要 将 其 复制 到 项 目 文件 夹 中 。 代 码 清 单 6.8 中 用 于 在 Linux 中 编译 该 应 用 的 Makefile， 通 过 设置 以 确保 包含 
CUDA 样 例 程序 中 的 common/inc 目 录 ， 来 提供 对 helper_math.h 的 访问 。 


为 了 成 功 地 在 Visual Studio 中 生成 并 运行 该 应 用 ， 需 要 使 用 PROJECTAdd Existing ltem 将 输入 图 像 文 件 添加 到 工程 中 ， 并 
在 工程 属性 页 中 做 一 个 修改 。 在 解决 方案 浏览 器 (Solution Explorer) 中 点 击 centroid_2d 工 程 ， 并 依次 选择 PROJECT 志 > 
Properties—=Configuration Properties =>C/C+ + —=General—Additional Include Directories, 使 编辑 列表 包含 CUDA 样 例 
的 common\inc 目 录 。 它 的 默认 安装 路 径 是 C: \ProgramData\NVIDIA Corporation\CUDA Samples\v7.5\common\inc, 


现在 生成 并 运行 这 个 应 用 。 


代码 清单 6.8 centroid 2d/Makefile 


Nvcc = /usr/local/cuda/bin/nvcc 
NVCC_FLAGS = -g -G -Xcompiler -Wall 
INC = -I/usr/local/cuda/samples/common/inc 


all: main.exe 


main.exe: main.o kernel.o 
S(NVCC) $^ -o $@ 


OWN WAT HAM PWD FP 


main.o: main.cpp kernel.h 
11  $(NVCC) $ (NVCC FLAGS) $ (INC) -c $< -o $@ 


13 kernel.o: kernel.cu kernel.h 
14 $ (NVCC) $ (NVCC FLAGS) $ (INC) -c $< -o $@ 


` 


图 6.3 中 显示 了 华盛顿 人 
530 列 、317 行 。 


流域 边界 地 图 的 样 例 输 入 图 像 。 打 印 到 命令 行 窗口 的 结果 显示 基于 5204244 个 像素 贡献 值 的 形 心 位 于 


图 6.3 ”输入 图 像 显 示 华 盛 顿 州 流域 (地 图 来 自 美国 地 质 调查 


Æ, http://wa.water.usgs.gov/data/realtime/adr/interactive/index2.html) 


最 后 ， 在 图 6.4 中 ， 输 出 图 像 显 示 了 交叉 于 图 形 中 心 的 坐标 轴 。 计 算出 来 的 广州 形 心 位 于 奇 三 县 南边 ， 韦 纳 奇 以 西 几 英 


里 上， 这 和 大 家 普遍 接受 的 位 置 相符 。 


图 6.4 输出 图 像 ， 坐 标 轴 位 于 形 心 处 
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6.4 SEJE 


在 本 章 中 ， 我 们 研究 了 计算 归 约 的 问题 ， 一 个 计算 网 格 中 的 所 有 线程 都 会 对 结果 产生 影响 。 我 们 从 实现 点 积 开始 
很 多 归 约 应 用 的 最 终 目 的 。 我 们 使 用 共享 内 人 存 计算 一 个 线程 块 的 贡献 值 ， 从 而 引入 资源 竞争 ， 并 展示 了 如 何 使 用 原子 操作 来 解决 


， 这 也 许 是 


这 一 问题 。 我 们 也 将 实现 的 归 约 扩展 到 计算 图 像 形 心 问题 上 ， 并 且 看 到 里 然 该 问题 是 二 维 的 ， 但 是 一 个 一 维 计算 网 格 束 足以 处 理 
这 个 问题 了 。 在 每 个 例子 中 ， 我 们 亲手 实现 归 约 ，NVIDIA 的 Thrust 库 中 也 提供 了 标准 的 归 约 实现 代码 库 。 在 第 8 章 中 将 提供 另 


外 一 种 使 用 Thrust 库 实现 的 centroid 2d。 


6.5 ”推荐 项 目 


1. 常 见 的 归 约 包括 查找 一 个 列表 中 的 最 大 值 和 最 小 值 。 修 改 parallel_dot 应 用 来 创建 一 个 L_inf 应 用 用 于 计算 一 个 数组 中 最 大 


的 绝对 值 。 
2. 探 索 一 个 归 约 的 执行 时 间 如 何 随 着 内 核 局 动 时 选择 的 线程 块 大 小 的 变化 而 变化 。 


3. 组 合 一 组 不 同 大 小 的 图 像 ， 并 且 将 形 心计 算 时 间 随 图 片 大 小 的 变化 绘制 成 图 。 


4. 为 第 5 章 中 的 heat_2d 应 用 实现 一 个 基于 归 约 的 迭代 停止 条 件 。 
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第 7 章 ”三 维 数据 交互 


本 草编 写 的 一 些 应 用 程序 涉及 三 维 数 据 的 生成 、 可 视 化 和 交互 。 对 三 维 销 数 进行 可 视 化 的 一 般 方 法 ， 第 一 步 是 在 其 连续 数据 
网 格 上 进行 采样 ， 因 此 几乎 所 有 三 维 绘图 程序 都 会 在 程序 执行 过 程 中 生成 一 个 三 维 网 格 数据 。 另 外 ， 三 维 网 格 数据 可 以 通过 多 种 
设备 (物理 上 ) 或 应 用 程序 (数学 上 ) 获得 ， 下 面 是 一 些 例子 : 


-诸如 计算 机 断层 扫描 《CT) 和 正 电 子 发 射 断层 扫描 (PET) 系统 的 医学 体 扫 描 仪 。CT 扫 描 技 术 也 被 用 于 机 械 零 部 件 检 


流体 动力 学 中 的 直接 数值 模拟 (DNS) ， 其 中 包括 空气 动力 学 和 水 动力 学 。 
PHS SRM RM (LDV) 中 流体 速度 场 的 实验 数据 。 

> 地 质 与 地 球 物 理 中 的 地 震 勘 探 方法 。 

- 在 考古 和 土木 工程 中 应 用 的 探 地 雷达 系统 。 

“ 利用 数字 光 处 理 (DLP) 型 3D 打 印 机 从 一 堆 图 像 中 生成 物理 实体 。 


. 视频 处 理 (将 时 间 视 为 第 三 个 维度 ) 。 


我 们 将 首先 调用 并 行程 序 对 函数 在 三 维 网 格 上 进行 采样 ， 这 个 程序 相对 于 二 维 的 情况 (第 4 草 ) 改动 很 小 。 当 我 们 有 了 三 维 
网 格 数据 ， 接 着 将 考虑 可 视 化 和 交互 的 问题 。 考 虑 到 我 们 的 屏幕 (与 视觉 系统 ) 是 二 维 的 这 个 基本 条 件 ， 我 们 将 提供 方法 (WA 
法 、 体 绘制 法 和 光线 投射 法 ) 来 获得 能 够 观察 和 交互 的 二 维 图 像 ， 我 们 使 用 flashlight 中 的 代码 作为 CUDA 和 OpenGL 同 交互 的 
模板 ， 修 改 flashlight 包 括 三 步 : 


` 在 kernel.cu 中 ， 编 写 内 核 泡 数 用 于 计算 将 被 显示 的 图 像 数 据 。 
- 在 inhtetactions.h 中 ， 编 写 键盘 与 鼠标 的 回调 函数 (用 于 响应 用 户 的 操作 ) ， 并 提供 操作 指 南 。 
- 在 main.cpp 中 ， 修 改 render () 遂 数 中 内 核 函 数 的 名 字 和 参数 ， 并 在 窗口 标题 栏 显 些 有 用 的 信 ， 


本 章 与 前 几 章 的 不 同 之 处 在 于 我 们 调用 三 维 内 核 溺 数 来 生成 将 要 被 显示 的 数据 集 。 在 这 一 草 的 最 后 ， 你 会 生成 类 似 图 7.1 的 
显示 图 像 ， 也 会 看 到 一 些 更 加 有 趣 的 数据 集 。 


E' Volume Visualizer : objid =0, method = 0, dist = 0.0, theta = 9.4 oo a 


E' Volume Visualizer : objld =0, method = 1, dist = 0.0, theta = 9.4 za- EE 


a) 切 户 法 b) 体 绘制 法 


| Volume Visualizer : objid =0, method = 2, dist = 0.0, theta = 9.4 es Be 


c) 放 线 投射 法 


图 7.1 使 用 由 vis_3d 提 供 的 可 视 化 方法 生成 的 三 维 距 离 场 〈 在 一 个 包围 盒 中 ) 的 样 例 图 片 


记 住 上 述 计划 ， 让 我 们 直接 进入 正题 。 先 从 三 维 内 核 代 码 的 编写 开始 。 


三 维 网 格 是 二 维 网 格 的 扩展 ， 因 此 我 们 将 使 用 相似 的 上 下 文 和 语言 。 在 第 4 章 中 ， 我 们 用 了 图 像 处 理 中 的 术语 ， 用 c 和 "分别 
代表 图 像 中 像素 的 列 序 号 和 行 序 号 。 从 二 维 到 三 维 ， 构 成 单 张 图 像 的 二 维 像素 (pixel) 扩展 成 为 构成 图 像 序列 的 三 维 体 素 


(voxel) 。 


除了 行 和 列 系 引 ， 我 们 需要 一 个 新 的 整数 类 型 来 代表 图 像 层 的 序号 ， 我 们 将 使 用 变量 s (可 以 认为 是 stratum 或 stack) , 32 
围 从 0 到 D-1， 其 中 D 表 示 图 像 层 的 深度 (depth) 。 我 们 像 之 前 计算 行 与 列 的 款 引 一 样 (利用 CUDA 内 置 变量 blockDim.、 


blockldx 和 threadldx) 来 计算 “ 层 ” 的 索引 : 


int s = blockIdx.z * blockDim.z + threadIdx.z; 


由 于 每 个 图 像 每 行 有 w 个 体 素 ， 每 层 有 w x h 个 体 素 ， 因 此 体 素 的 一 维 数组 索引 就 是 : 


int 1 = C + r*w + S*w*h. 


我 们 还 需要 设 定 内 核 局 动 参数 ， 因 此 除了 TX、TY (分 别 代表 线程 块 的 宽度 和 高 度 ) ， 还 引入 了 TZ 来 代表 续 程 块 的 深度 。 


现在 ，dim3 变 量 的 所 有 分 量 都 被 用 来 指定 线程 块 的 大 小 了 : 


dim3 blockSize(TX, TY, TZ); 


而 线程 网 格 的 三 个 维度 由 gridSize 所 指定 : 


dim3 gridSize(divUp(W, TX), divUp(H, TY), divUp(D, TZ)); 


函数 divUp () 是 一 个 音 用 拉 巧 ， 用 于 确保 线程 块 的 数量 能 够 覆 关 所 有 的 线程 。 


代码 清单 7.1 展 示 了 计算 三 维 网 格 上 的 数据 点 到 一 个 定点 的 距离 的 程序 片段 。 我 们 再 次 从 一 个 简单 的 例子 开始 ， 计 算 网 格 中 
的 点 相对 一 个 参考 点 的 距离 值 。 但 是 我 们 将 进一步 在 一 个 三 维 可 视 化 应 用 中 几乎 完全 不 变 地 使 用 这 个 内 核 浮 数 ， 只 是 将 


distance () 阔 数 损 成 一 个 计算 寿 色 值 的 函数 。 


代码 清单 7.1 dist_3d/kernel.cu， 这 段 代 码 能 够 并 行 地 计算 三 维 网 格 上 的 数据 点 到 一 个 定点 的 距离 


#define W 32 
#define H 32 
#define D 32 
#define TX 8 // number of 
#define TY 8 // number of 
#define TZ 8 // number of 


oo ~ na UP WD 吃 


int divUp(int a, int b) { 


threads per block along x-axis 
threads per block along y-axis 
threads per block along z-axis 


return (a + b - 1)/b; } 


9 


10 device _ 

11 float distance (int c, int r, int s, float3 pos) { 

12 return sqrtf((c - pos.x)*(c - pos.x) + (r - pos.y)*(r - pos.y) + 
13 (s - pos.z)*(s - pos.z)); 

14 } 

i> 

16 global 


17 void distanceKernel (float *d out, int w, int h, int d, float3 pos) { 


18 const int c = blockIdx.x * blockDim.x + threadIdx.x; // column 
19 const int r = blockIdx.y * blockDim.y + threadIdx.y; // row 

20 const int s = blockIdx.z * blockDim.z + threadIdx.z; // stack 
21 const int i = c + r*w + s*w*h; 

22 if ((c >= w) || (r >= h) || (s >= d)) return; 

23 d_out [i] = distance(c, r, s, pos); // compute and store result 
24 } 

aS 

26 int main() { 

27 float *out = (float*)calloc(W*H*D, sizeof (float) ); 

28 float *d out = 0; 

29 cudaMalloc(&d out, W*H*D*sizeof (float) ); 

30 const float3 pos = {0.0f, 0.0f, 0.0£}; // set reference position 
31 const dim3 blockSize(TX, TY, TZ); 

32 const dim3 gridSize(divUp(W, TX), divUp(H, TY), divUp(D, TZ)); 
33 distanceKernel<<<gridSize, blockSize>>>(d out, W, H, D, pos); 
34 cudaMemcpy (out, d out, W*H*D*sizeof(float), cudaMemcpyDeviceToHost) ; 
35 cudaFree (d out) ; 

36 free (out); 

37 return 0; 

38 } 


我 们 希望 你 发现 这 段 代 码 十 分 眼熟 并 且 有 较 好 可 读 性 ， 但 有 一 部 分 代码 被 改动 并 值得 指出 (由 于 问题 上 升 到 了 三 维 ) 。 


- 我 们 使 用 calloc 来 分 配 数组 out 而 不 是 用 静态 数组 ， 因 为 三 维 网 格 的 规模 往往 会 导致 栈 溢出 错误 。 


注意 到 线程 块 三 个 维度 TX、TX 和 TZ 是 较 小 值 。 那 是 因为 对 于 一 个 线程 块 来 说 ， 它 最 多 能 够 拥有 1024 个 线程 〈 对 于 计算 
力 2.0 到 5.2 的 GPU 来 说 ) ， 因 此 8X8X8 是 一 个 可 行 的 大 小 (512) ， 而 如 果 设 成 16X16X16 则 需要 4096 个 线程 ， 这 将 不 能 成 功 启 
动 内 核 。 通 常 ， 并 没有 要 求 线程 块 必 须 是 方 的 ， 而 且 你 会 发 现 ， 将 blockDim.x 指 定 为 32 的 倍数 会 具有 更 好 的 性 能 。 例 如 ，dim3 
gridSize (32, 4, 4) 是 可 行 的 而 且 更 具有 性 能 优势 。 


- 现在 ， 参 考点 pos 是 一 个 float3 类 三 维 匀 股 定 理 中 出 现 了 pos.x、pos.y、pos.Zz 以 及 体 素 的 行 、 列 、 层 索引 。 


` 每 个 维度 都 有 边界 检测 ， 超 出 网 格 范围 的 线程 会 被 简单 地 直接 返回 : 


((c >= w) || (r >= h) || (s >= d)) return; 


上 述 部 分 是 三 维 内 核 的 基础 ， 请 自行 构建 并 执行 dist 3d 应 用 并 使 用 调试 工具 验证 输出 结果 是 人 否 正确 。 (阅读 本 章 末 尾 的 建 
议 项 目 1 来 获取 更 多 建议 。) 注意 ， 在 Linux 环 境 下 ， 构 建 项 目 需要 的 Makefile 文 件 和 构建 dist_2d 时 所 用 的 一 样 。 


7.2 至 看 三 维 数据 并 与 乙 人 交互 : vis 3d 


本 章 开 头 说 过 ， 当 前 的 显示 技术 是 二 维 的 ， 所 以 我 们 将 重点 讨论 如 何 从 三 维 数据 中 获取 有 意义 的 二 维 图 像 。 二 维 图 像 的 显示 
和 交互 使 用 flashlight 作 为 与 OpenGL 交 互 的 模板 。 所 以 ， 尽 管 使 用 三 维 内 核 来 生成 了 三 维 数据 ， 显 示 与 交互 仍然 需要 二 维 内 核 
去 计算 二 维 图 像 。 


须知 


你 可 能 会 问 ， 可 视 化 方面 有 哪些 知识 是 必 备 的 呢 ? 诚然 ， 本 节 中 只 出 现 了 少量 与 CUDA 相 关 的 新 知识 。 但 是 我 们 这 里 的 主要 
目标 是 向 广大 工程 师 展 示 CUDA 的 适用 性 以 及 有 效 性 ， 并 且 本 节 可 能 是 最 好 的 时 机 。 如 果 你 曾经 使 用 过 你 最 喜欢 的 软件 来 绘制 三 
维 等 值 线 ， 并 且 对 其 显示 出 结果 所 需 的 漫长 等 待 时 间 (或 者 当 你 改变 视角 方向 时 更 新 显示 的 延迟 ) 很 介意 ， 那 么 这 正 是 一 个 很 好 
的 机 会 来 体验 在 图 形 互 操作 性 方面 基于 GPU 的 并 行 计 算 的 强大 威力 。 


为 了 吉明 如 何 从 三 维 数 据 获 得 二 维 图 像 ， 我 们 将 尝试 使 用 一 个 信 蛙 的 模型 一 一 X 光 或 严 攻 成像 : SR CIR ATC = 
维 数据 集 并 打 到 一 个 二 维 平 板 上 。 我 们 及 用 放射 科学 中 的 语言 ， 将 三 维 体 素 的 值 当 作 密度 ， 将 二 维 像素 的 值 当 作 ( 光 ) RE. 
个 像素 的 强度 值 由 从 光源 到 平面 之 间 的 众多 密度 值 来 决定 。 不 同 可 视 化 万 法 的 区 别 就 在 于 从 密度 数据 得 到 强度 值 的 万 法 不 同 。 


让 我 们 来 看 看 三 种 不 同 的 方法 : 
切片 法 : 我 们 用 一 块 平面 穿 过 数据 集 ， 在 光线 命中 平面 的 位 置 计算 强度 值 ( 未 命中 的 部 分 将 显示 一 个 默认 的 背景 值 ) 。 
- 体 绘制 法 : 我 们 通过 对 光线 路 径 上 的 密度 值 进 行 积分 来 获得 二 维 图 像 。 
. 光线 投射 法 : 我 们 认为 密度 函数 中 上 暗含 了 三 维 物体 的 结构 ， 并 选择 一 个 阅 值 作为 这 个 物体 的 表面 。 找 出 光线 最 初 击 中 物体 
表面 的 位 置 ( 如 密度 到 达 阅 值 的 地 方 ) 并 根据 这 个 位 置 的 特性 来 得 到 二 维 图 像 。 我 们 将 使 用 兰 伯 特 反射 模型 (model of 


Lambertian reflectance) ， 根 据 物体 表面 的 法 向 量 和 视角 来 计算 强度 值 。 (法 向 量 与 密度 的 导数 有 关 并 由 有 限 差 分 近似 方法 获得 。 
) 


现在 我 们 遇 到 了 并 行程 序 设计 的 基本 问题 : 如 何 将 任务 划分 到 单个 线程 ? 这 里 ,我 们 继续 使 用 flashlight 中 的 模型 ,假定 一 
个 线程 计算 一 个 像素 的 强度 值 。 (使 用 这 种 方法 是 为 了 摘 述 方便 。 你 可 以 通过 使 用 一 个 线程 来 计算 多 个 像素 的 强度 值 来 提高 性 
能 。) 

上 述 的 每 一 种 方法 都 包括 一 个 判断 光线 与 金子 (含有 三 维 数据 ) 是 否 相 交 的 计算 ， 所 以 让 我 们 看 看 光线 -金子 相交 检测 的 实 
现 。 在 这 里 ,我们 不 重复 造 轮子 ， 而 是 使 用 一 段 现 有 的 代码 来 完成 任务 ， 这 段 代码 能 够 在 CUDA Samples 的 2_Graphics 目 录 下 
的 volumeRender 应 用 内 找到 ， 实 际 上 一 部 分 是 参考 了 SIGGRAPH 的 笔记 MM。 我 们 所 需要 的 只 是 稍微 修改 一 下 intersectBox () 


函数 并 且 用 一 个 数据 结构 Ray 来 代表 一 条 有 向 线段 ， 如 代码 清单 7.2 所 示 。Ray 数 据 结构 由 两 个 float3 类 型 分 量 组 成 : o 分 量 表示 
光线 的 起 始 位 置 ，d 分 量 代表 光线 的 方向 。 


代码 清单 7.2 Ray 数据 结构 、 线 性 插值 函数 paramRay () 以 及 光线 -人 金子 相交 检测 遂 数 intersectBox () 


typedef struct { 
float3 o, d; // origin and direction 


} Ray; 
_ device  float3 paramRay(Ray r, float t) { return r.o + t*(r.d); } 


// intersect ray with a box from volumeRender SDK sample 
_ device bool intersectBox(Ray r, float3 boxmin, float3 boxmax, 
float *tnear, float *tfar) { 
// compute intersection of ray with all six bbox planes 
const float3 invR = make float3(1.0f)/r.d; 
const float3 tbot = invR*(boxmin - r.o), ttop = invkR* (boxmax - r.o); 
// re-order intersections to find smallest and largest on each axis 
const float3 tmin = fminf(ttop, tbot), tmax = fmaxf(ttop, tbot); 
// find the largest tmin and the smallest tmax 
*tnear = fmaxf (fmaxf (tmin.x, tmin.y), fmaxf (tmin.x, tmin.z)); 
*tfar = fminf (fminf (tmax.x, tmax.y), fminf (tmax.x, tmax.z)); 
return *tfar > *tnear; 


一 条 从 po 到 p1 的 线段 可 以 用 公式 p (t) =po+t* (po- p1) 表达 ， 其 中 t 的 变化 泄 围 是 0，1]。 在 Ray 绪 构 中 ( 称 其 为 
pixRay) ，po 存 储 在 pixRay.o 中 ， (p1- po) 存储 在 pixRay.d 中 ， 我 们 可 以 用 下 面 一 段 代码 来 创建 并 初始 化 光线 ， 该 光线 通过 
光源 (名 为 Source 的 float3 变 量 ) 和 像素 位 置 (名 为 pix 的 float3 变 量 ) : 


Ray pixRay; 
pixRay.o = source; 
pixRay.d = pix - source; 


盒子 中 存 有 数据 ， 更 确切 地 说 是 一 个 AABB 包 围 盒 (axis-aligned bounding box) ， 它 被 设 吓 了 两 个 顶点 boxmin 和 
boxmax (分 别 位 于 盒子 的 下 - 左 -前 和 上 - 右 - 后 ) 。intersectBox () 函数 的 参数 包含 对 光线 的 描述 pixRay， 一 个 AABB 包 围 盒 
(由 boxmin 和 boxmax 描 述 ) 和 两 个 用 于 存储 坐标 信息 的 float 指 针 tnear 与 tfar (这 两 个 参数 将 用 于 估计 光线 是 否 进入 了 盒 
F) 。 注 意 intersectBox () 消 数 的 返回 值 是 布尔 类 型 。false 表 示 相 交 检 测 失败 (光线 没有 击 中 盒子 ) 。 如 果 光 线 击 中 了 合子 ， 
将 会 返回 true， 并 将 光线 进入 和 离开 盒子 的 信息 储存 在 tnear 和 tfar 中 。 然 后 我 们 就 可 以 用 线性 插值 函数 paramRay () 通过 
tnear 和 tfar 来 获得 光线 进入 和 离开 盒子 的 坐标 near 王 far。 


计算 一 个 像素 的 强度 值 的 步骤 如 下 : 
计算 像素 的 坐标 pix， 声 明 / 初 始 化 pixRay。 
调用 光线 -金子 相交 检测 函数 : 
" 如 果 光 线 没有 命中 盒子 ， 使 用 默认 背景 值 作为 像素 的 强度 值 。 


‘ 如 果 光 线 命中 Toa 创建 一 个 被 裁剪 的 光线 ( 称 为 boxRay) 它 从 near 到 far， 然后 调用 一 个 特定 的 着 WE ERE E 
度 值 ， 着 色 函 数 的 参数 包括 boxRay、 图 像 序列 的 密度 数据 和 其 他 所 需 参 数 。 


现在 ,我 们 开始 关注 着 色 涵 数 ， 我 们 将 展现 每 个 消 数 的 代码 片段 ， 然 后 基于 flashlight 将 它们 整合 起 来 ， 产 生 完 整 的 vis_3d 
的 程序 代码 。 


7.3 “本章 小 结 


在 本 章 我 们 学 习 了 如 何 局 动 三 维 内 核 浮 数 和 如 何 与 三 维 数据 进行 实时 交互 ， 并 使 用 了 三 种 不 同 的 可 视 化 技术 : 切片 法 ， 体 绘 
制 法 和 光线 投射 法 。 我 们 希望 你 在 完成 本 章 的 学 习 后 ， 能 够 有 信心 去 编写 自己 的 CUDA 三 维 交互 项 目 。 这 里 有 一 些 督促 你 继续 前 
进 的 建议 。 


74 推荐 项 目 


1. 修 改 dist_3d 应 用 ， 使 用 CPU 计算 其 相应 的 结果 。 比 较 CPU 和 GPU 的 结果 ， 证 明 它 们 是 一 致 的 。 为 CPU 和 GPU 的 计算 计 
时 ， 并 人 在 不 同 的 规模 下 比较 两 者 的 运算 时 间 。 


2. 通 过 使 用 更 好 的 求 根 技术 来 替换 现 有 的 技术 ， 扩 展 raycastShader () 函数 使 得 它 能 够 处 理 更 一 般 的 数据 集 。 


3. 使 用 更 高 级 的 积分 程序 例如 梯形 积分 方法 (以 两 步 的 平均 值 而 不 是 直接 以 一 端的 值 来 计算 面积 ) 来 增强 
volumeRenderShader () AŽ. 


4. 想 想 如 何在 vis_3d 应 用 中 输入 数据 ， 观 察 它 并 与 之 交互 。 下 一 次 你 担 CT 或 核磁 时 ， 记 得 拷贝 一 份 数据 ， 并 对 它 进行 可 视 
化 。 


5. 实 现 全 方位 的 三 维 交 互 (而 不 是 只 能 绕 一 个 轴 旋 转 ) 。 


6. 实 现 一 个 程 疯 方程 (eikonal equation) 求解 器 ， 能 够 从 图 像 堆 栈 创建 有 向 距离 网 格 (signed distance grid) 。 (更 多 


mo, Bel, ) 
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第 8 音 ”CUDA 函 数 库 实践 


本 章 会 介绍 一 些 软件 冰 数 库 。 这 些 函 数 库 可 以 让 你 利用 CUDA 的 能 力 ， 而 无 须 杀 自 编写 全 部 代码 。 在 讲解 这 些 CUDA 冰 数 库 
的 过 程 中 ， 我 们 将 明确 指出 一 些 并 行程 序 设计 的 模式 ， 并 通过 具体 的 例子 来 说 明 这 些 模 式 是 如 何 为 你 所 用 的 。 同 时 ， 本 章 还 涉及 
一 些 转 而 米 用 基于 消 数 库 来 实现 的 程序 ， 包 括 图 像 处 理 以 及 距离 、 质 心 的 计算 ， 另 外 也 加 入 了 一 些 新 的 示例 ， 涉 及 对 圆周 率 nt 进 
行 的 蒙特 卡 罗 模 拟 、 对 图 像 空间 中 距离 的 计算 ,以 及 对 线性 方程 组 的 求解 等 。 


8.1 ” 目 定 义 的 与 现 有 的 


到 目前 为 止 , 我 们 已 经 投入 了 大 部 分 精力 来 构建 自 定义 的 应 用 程序 ， 主 要 通过 使 用 CUDA API 编 程 工具 以 及 对 C 语 言 进行 扩 
展 延 伸 来 完成 构建 。 然 而 ， 这 里 还 是 有 其 他 的 情况 ， 更 适合 考虑 使 用 一 个 已 经 存在 的 、 不 需要 目 己 构建 的 代码 库 : 


“ 你 需要 某 种 特定 的 系统 功能 ， 它 们 需要 你 错 清 一 系列 细节 ， 否 则 无 法 轻易 地 实现 相应 的 功能 。 我 们 曾经 两 次 遇 到 这 样 的 情 


“ 交互 式 图 形 : 编写 代码 与 显示 器 上 所 示 的 内 容 进 行 交互 ， 实 际 上 涉及 处 理 你 的 系统 和 显示 设备 的 规格 。 这 时 可 以 使 用 一 
个 已 存在 的 图 形 库 (例如 我 们 在 前 几 章 中 用 到 的 OpenGL) 来 提供 必要 的 抽象 层 ， 它 们 可 以 使 交互 式 图 形 处 理 的 执行 独立 于 特定 
的 硬件 细节 。 


“ 图 像 文件 : 相 比 于 处 理 多 种 图 像 文 件 格式 的 细节 ， 在 涉及 图 像 文 件 输 入 /输出 的 项 目 中 ， 我 们 使 用 CImg 库 来 从 图 像 文件 
中 传 入 和 传 出 数据 。 


- 你 应 该 对 代码 的 可 靠 性 和 可 维护 性 十 分 关注 ， 并 且 希 望 使 用 那些 由 专家 们 编写 并 进行 了 充分 测试 的 程序 ; 另外 也 希望 在 未 


来 能 对 代码 的 重要 功能 加 以 改进 ， 以 确保 其 具有 一 个 持久 可 用 的 生命 期 。 


我 们 现在 可 以 确认 代码 库 可 以 友 挥 重要 作用 的 场合 ， 但 也 要 承认 使 用 它们 是 需要 一 些 开销 的 一 一 即便 是 那些 免费 的 代码 
库 。 这 些 开 销 指 的 丈 是 你 每 次 学 习 使 用 一 个 新 的 代码 库 时 需要 投入 的 时 间 和 精力 ， 但 是 你 也 不 应 因此 望而却步 。 随 着 经 验 的 积 
办 ,学 习 使 用 新 的 代码 库 会 变 得 更 加 容易 。 


我 们 将 快速 浏览 一 些 与 CUDA 相 关 的 代码 库 ， 这 样 你 可 以 了 解 如 何 使 用 它们 。 当 谈 及 权衡 开销 与 收益 时 ， 这 里 有 几 件 事情 值 
得 铭记 : 


(HARA: 毫 无 疑问 ， 成 本 -效益 的 分 析 一 定 程度 上 受 我 们 使 用 特定 的 编码 工具 的 频率 影响 ， 在 很 多 应 用 场合 提 到 的 并 行 
程序 设计 构造 方式 都 统一 称 为 “并 行 模式 ”。 这 样 的 模式 也 为 我 们 创造 和 交流 我 们 所 设计 产品 的 结构 提供 了 一 个 很 方便 的 环境 。 
当代 码 库 允许 使 用 常用 并 行 模 式 后 ， 就 会 变 得 特别 实用 ， 所 以 当 我 们 浏览 代码 库 时 ， 会 明确 地 给 出 模式 的 类 型 。McCool、 
Robison 2 Æ Reinders! 已 经 定义 了 下 面 这 一 组 并 行 模式 : 包括 超标 量 序列 任务 图 、 选 择 、 了 上 映像、 集合、 模板 、 划 分 、 归 约 、 扫 描 
以 及 包装 。 在 本 章 ， 我 们 将 会 遇 到 其 中 的 一 部 分 模式 。 


:CUDA 基 础 知识 : 既然 CUDA 库 如 此 实用 ， 为 什么 之 前 我 们 要 投入 那么 多 精力 去 使 用 CUDA C 语 言 来 编写 应 用 程序 呢 ? 之 
前 的 努力 都 付 之 东 流 了 吗 ? 我 确信 这 样 的 担心 是 完全 没有 必要 的 ， 即 使 你 最 终 成 为 了 极度 依赖 CUDA 库 的 用 户 (或 者 通过 其 他 的 
编程 语言 来 调用 CUDA 的 能 力 ) ， 你 使 用 CUDA C 语 言 开 发 应 用 程序 的 经 验 对 你 来 说 依然 很 有 用 。 你 会 对 使 用 的 代码 库 的 “后 
台 ” 如 何 运行 深入 理解 ， 这 会 让 你 更 好 地 去 辨别 CUDA 库 的 局 限 性 并 学 习 去 利用 那些 库 和 编程 语言 的 长 处 。 


设 定 好 了 本 章 的 知识 背景 后 ， 让 我 们 开始 学 习 一 些 CUDA 库 。 鉴 于 已 经 存在 太 多 的 CUDA 库 ， 所 以 全 面 地 浏览 所 有 的 库 是 不 
现实 的 。 这 里 我 们 的 目标 是 只 提 及 部 分 CUDA 库 ， 对 它们 的 使 用 提供 说 明 性 的 例子 ， 并 指出 它们 所 使 用 的 并 行 模式 。 


8.2 Thrust 库 


CUDA 工 具 包 中 的 Thrust 库 文档 四 提供 了 一 个 完备 而 简明 的 描述 : 


Thtrust 是 一 个 供 CUDA 使 用 的 C++ 模板 库 ， 它 以 标准 模板 库 (Standard Template Library, STL) 为 基础 。 通 过 一 个 可 用 CUDA C 


语言 进行 完全 操控 的 高 级 接口 ，Thrust 可 以 让 你 进行 最 小 限度 的 编程 工作 ， 米 实现 高 性 能 的 并 行 应 用 程序 的 开发 。 


Thrust 提 供 了 丰富 的 数据 并 行 原 语 集合 ， 例 如 扫描 、 排 序 和 归 约 ， 这些 可 以 与 简明 、 吻 读 的 源 代码 组 合 在 一 起 去 实现 复杂 的 
算法 。 通 过 依照 这 些 高 层次 的 抽象 来 描绘 你 的 计算 ， 你 就 可 以 留 给 Thrust 库 自动 选择 最 有 效 的 实现 方式 的 余地 。 因 此 ，Thrust 库 
可 以 被 用 于 CUDA 应 用 程序 的 快速 原型 设计 中 ， 适 用 于 对 程序 员工 作 效 率 比 较 在 意 的 场合 ， 也 同样 适用 于 健壮 性 和 绝对 性 能 至 关 
重要 的 生产 过 程 。 


有 关 Thrust 库 的 更 多 信息 可 参考 Thrust 项 目 网 站 BB] 


既然 Thrust 是 作为 一 个 C++ 模板 库 供 CUDA 使 用 的 ， 我 们 应 当 人 花 一 些 时 间 去 介绍 它 的 基础 ， 也 融 是 标准 模板 库 。 人 在 本 书 
中 ， 我 们 常用 的 是 语言 风 格 ， 其 中 的 函数 定义 具有 特异 性 (type-specific) ， 因 此 一 个 函数 的 定义 只 适用 于 单一 的 参数 类 型 列 
表 。C++ 则 提供 了 更 多 的 灵活 性 ， 表 现 为 允许 六 数 按照 通用 的 类 型 使 用 C+ + 中 的 模板 和 重 载 两 大 特性 〈 即 允许 一 个 图 数 名 在 不 
同 的 数据 输入 类 型 下 表示 不 同 的 操作 ) ，C++ 支 持 变 量 模 板 、 类 模板 和 立 数 模板 (这 将 与 这 部 分 讨论 的 内 容 密切 相 天 ) 。 由 于 
C++ 语言 兰 于 C 语 言 ， 并 且 我 们 之 前 已 经 使 用 了 C++ 编译 器 来 编译 CC 语言， 因此 我 们 的 开 友 工具 是 完全 文 持 使 用 这 样 的 C++ 特性 
的 。 


C++ 标准 库 包含 多 种 容器 (container) 供 处 理 给 定 类 型 的 变量 集合 使 用 ， 其 中 最 常用 的 容器 为 向 量 ， 这 是 一 种 具有 自动 调 
整 大 小 能 力 的 序列 容器 。 


因为 标准 库 模板 不 是 唯一 用 vector 作 为 命名 方式 的 软件 库 ， 因 此 要 使 用 命名 空间 (反映 本 质 的 前 缀 标识 符 ) 来 解决 名 称 冲 
突 。 特 别 地 ，C++ 标 准 库 的 一 切 内 容 的 名 称 前 都 会 加 上 std: : ， 因 此 一 个 向 量 的 定义 形式 为 std: : vector (或 者 你 可 以 在 代码 
文件 中 加 入 声明 using namespace std; 来 引入 整个 std 名 字 空 间 ， 虽 然 这 样 做 确实 会 提供 一 些 便利 ， 不 过 这 也 会 牺牲 代码 的 可 
读 性 ， 因 此 在 多 数 情况 下 ， 我 们 会 使 用 包含 命名 空间 前 缀 的 完整 表述 ) 。 

Thrust 是 CUDA 的 一 个 模板 库 ， 使 用 命名 空间 thrust。 不 同 于 容器 std: : vector，Thrust 需 要 使 用 thrust: : host vector 
和 thrust: : device_vector。Thrust 向 量 的 单个 元 素 的 访问 可 以 通过 使 用 C 语 言 风 格 的 方 括号 或 C++ 语言 风格 下 的 迭代 器 来 实 
现 。 

Thrust 使 用 基于 向量 和 适 代 器 的 语法 ， 并 且 为 分 配 和 释放 内 存 ， 创 建 、 获 取 、 复 制 同 量 内 容 以 及 对 向 量 进行 操作 提供 内 置 的 
功能 (不 需要 显 式 调 用 cudaMalloc () 、cudaMemcpy () 或 cudaFree () 方法 ) 。Thrust 还 提供 了 执行 多 种 并 行 模 式 的 指 
令 ， 包 括 选 择 、 映 射 、 归 约 、 扫 摘 和 划分 ， 还 有 其 他 常见 的 操作 ， 如 排序 和 向 量 比较 。 虽 然 我 们 集中 于 使 用 CUDA 在 GPU 上 执行 
Thrust 库 提供 的 代码 。Thrust 也 包含 了 供 OpenMP 执 行 的 “后 台 ” 和 线程 构建 块 (threading building blocks, TBB) ， 因 此 
Thrust 库 的 代码 在 GPU 与 多 核 CPU 系 统 之 间 是 可 移植 的 。5 6 7 


Thrust 库 提供 了 一 个 抽象 层 ， 这 免除 了 我 们 编写 目 定义 内 核 代 码 的 必要 性 ， 但 是 这 个 额外 的 抽象 层 也 会 使 调试 出 现 一 些 麻 
烦 ， 同 时 也 需要 一 些 特定 的 C++ 知 识 。 


8.3 cuRANDE 


你 也 许 已 经 注意 到 ， 当 我 们 使 用 Thrust 库 来 估算 r 的 值 时 ， 我 们 在 主机 端 生成 了 随机 点 坐标 (并 将 随机 坐标 储存 于 主机 向 量 
中 ) 。 如 果 你 想 将 该 部 分 计算 并 行 化 ， 就 需要 了 解 有 关 cuRAND 的 知识 ， 即 CUDA 随 机 数 生成 库 口 。 

cuRAND 库 的 一 般 描述 解释 了 其 “灵活 的 使 用 模式 ”， 意 思 是 指 存在 一 个 用 于 产生 大 量 随机 数 的 主机 API (函数 在 主机 端 调 
用 但 在 GPU 上 并 行 执行 ) 及 一 个 可 在 内 核 中 调用 的 内 联 实现 。 我 们 估计 的 例子 中 遵循 随机 数 大 量 生成 模式 ， 我 们 生成 了 一 系列 
随机 数 ， 之 后 将 它们 用 于 紧 随 其 后 的 计算 过 程 ， 因 此 我 们 在 生成 随机 点 坐标 时 ， 采 用 cuRAND 主 机 APl 来 代替 之 前 的 方法 。 改 进 
后 的 使 用 cuRAND 来 估算 nt 的 代码 在 代码 清单 8.10 中 给 出 ， 添 加 了 cuRAND 头 文件 curand.h 来 包含 文件 。 


代码 清单 8.10 ”thrustpi/kernel.cu 是 基于 cuRAND 库 产生 随机 点 坐标 


1 #include <curand.h> 
2 #include <thrust/device vector.h> 


3 #include <thrust/count.h> 
4 #include <math.h> 

5 #include <stdio.h> 

6 #define N (1 << 20) 
7 
8 


int main() { 

9 curandGenerator t gen; 
10 curandCreateGenerator (&gen, CURAND RNG PSEUDO DEFAULT) ; 
i curandSet PseudoRandomGeneratorSeed(gen, 42ULL); 
12 thrust::device vector<float>dvec x(N) ; 
13 thrust::device vector<float>dvec y(N) ; 
14 float *ptr x = thrust::raw pointer cast (&dvec x[0]); 
15 float *ptr_y = thrust::raw pointer cast (&dvec y[0]); 
16 curandGenerateUniform(gen, ptr x, N); 
L7 curandGenerateUniform(gen, ptr y, N); 
18 curandDestroyGenerator (gen); 

19 int insideCount = 
20 thrust: :count if (thrust: :make zip iterator (thrust: :make tuple ( 
21 dvec_x.begin(), dvec_y.begin())), thrust: :make_zip_ iterator ( 
22 thrust::make tuple(dvec x.end(), dvec y.end())), 
23 [] device (const thrust::tuple<float, float> &el) { 
24 return (pow(thrust::get<0O>(el), 2) + 
25 pow(thrust::get<1l>(el), 2)) < 1.f; }); 
26 printf ("pi = %f\n", insideCount*4.f£/N) ; 
27 return 0; 
28 } 


第 9~11 行 包括 了 使 用 cuRAND 进 行 的 设 定 : 


在 第 9 行 声明 一 个 名 为 gen 的 cutandGenetatof t 对 象 。 (你 可 以 将 curand-Generator t 当 作 一 种 由 cuRAND 创 建 的 适用 于 随机 数 
) 


“ 建立 一 个 带 有 参数 的 特定 的 随机 数 生成 器 ， 参 数 对 应 gen 地 址 和 特定 生成 器 的 选择 。CURAND_RNG_PSEUDO_DEFAULT 


选取 默认 的 伪 随 机 数 生成 器 (由 于 它 不 需要 状态 输入 ， 所 以 显得 稍微 简单 一 些 ) ( 见 第 10 行 ) o 


- 第 11 行 为 随机 数 生 成 器 设 定 种 子 。curandSetPseudoRandomGeneratorSeed () 的 参数 包括 生成 器 和 种 子 的 值 ，42ULL 表 示 值 


为 42 的 unsigned long long int 类 型 。 


接 下 来 看 一 下 第 12 行 和 第 13 行 中 设备 向 量 dvec x 和 dvec y 的 创建 。 注 意 cuRAND 人 允许 我 们 在 GPU 上 生成 随机 坐标 值 ， 因 此 
现在 不 需要 使 用 我 们 之 前 使 用 的 主机 向 量 hvec x 和 和 hvec y。 


现在 我 们 获得 了 使 用 Thrust 的 指针 强制 转换 能 力 的 首次 机 会 。 我 们 将 使 用 cuRAND 冰 数 curandGenerateUniform () RE 
成 一 个 均匀 分 布 的 随机 数 集合 ，curandGenerate-Uniform () 预 设 的 参数 包括 一 个 curandGenerator t 对 象 (来 生成 随机 
值 )， 一 个 指向 设备 数组 的 指针 (生成 值 被 储存 的 地 方 ) 以 及 将 要 生成 的 值 的 数量 。 为 了 将 随机 值 存 入 设备 数组 ， 我 们 在 第 14 
行 和 第 15 行 中 使 用 thrust: : raw_pointer_cast () 创建 两 个 指针 ptr_x 和 ptr_y， 并 指向 每 个 设备 向 量 的 起 始 元 素 。 随 机 数 通 过 
curandGenerate-Uniform () 进行 计算 并 在 第 16 行 和 第 17 行 通过 来 自 dvec_x 和 和 dvec_y 强 制 转换 的 指针 ptr_x 和 ptr_y， 和 存储 到 
设备 向 量 dvec x 和 dvec y 中 。 完 成 随机 值 的 生成 后 ， 在 第 18 行 中 通 SS ee a () 释放 掉 cuRAND 使 用 的 资 
源 。 剩 余 的 代码 和 之 前 的 相同 ， 建 立 程序 的 文件 在 代码 清单 8.11 中 给 出 。 在 Visual Studio 中， 通过 打开 项 目 属性 页 ， 依 次 选择 
Linker=Input—Additional Dependencies 之 Edit， 并 添加 curand.lib 的 方式 来 链接 CuURAND 库 。 


代码 清单 8.11 thrustpi/Makefile 用 于 包含 cuRAND 能 


NVCC = /usr/local/cuda/bin/nvcce 
NVCC FLAGS = -g -G -Xcompiler -Wall --std=c++11 --expt-extended-lambda 
LIBS = -lcurand 


Main.exe: kernel.cu 
$ (NVCC) $ (NVCC FLAGS) $^ -o $@ $(LIBS) 


生成 并 运行 代码 来 了 解 它 的 执行 过 程 。 再 次 重申 ， 这 个 例子 为 演示 目的 ， 所 以 比较 简单 。 另 外 有 一 个 与 Thrust/cuRAND 更 
紧密 耦合 和 更 加 高 效 的 示例 ， 见 参考 文献 中 


8.4 NPPE 


英 伟 达 性 能 原 语 库 (The NVIDIA Performance Primitives library, NPP) 是 一 个 可 被 用 于 图 像 、 视 频 和 信和 号 处 理 的 并 行 
国 数 的 集合 。 从 版 本 7.5 开 始 ，NPP 声 称 要 实现 与 CPU 执行 相 比 5~ 10 倍 的 性 能 提升 ， 并 且 它 包含 大 约 1900 种 对 于 图 像 的 原 语 处 
理 和 大 约 600 种 对 于 信号 的 原 语 处 理 ， 为 加 速 代 码 的 开 上 提供 了 便利 。 这 里 我 们 使 用 NPP 来 创建 一 个 对 第 5 章 应 用 程序 sharpen 
的 基于 库 的 实现 ， 但 在 正式 了 解 代码 的 细节 之 前 ,我 们 需要 简单 介绍 一 下 库 文件 。 


链接 库 文 件 


使 用 代码 库 有 时 需要 包含 头 文 件 或 链接 对 象 文 件 。 附 录 D 中 给 出 了 有 关 如 何在 Visual Studio 中 实现 这 些 操作 的 综合 介绍 。 这 里 
我 们 给 出 关于 NPP 的 细节 。Windows 用 户 需 要 告知 系统 将 nppc.lib 与 nppi.lib 和 npps.lib 进 行 链接 ， 它 们 中 分 别 有 图 像 处 理 函 数 和 信号 
db $2 HH, ÆVisual Studio 中 ， 你 可 以 通过 打开 项 目 属性 页 ， 选 择 LinkerInput 来 开始 此 操作 ， 之 后 可 以 单 击 Additional 
Dependencies， 选 择 Edit， 将 需要 的 库 添 加 到 列表 中 ， 这 样 它们 就 会 在 列表 中 显示 ， 如 图 8.3 所 示 。 


9| x 
sharpen_NPP Property Pages 


> Common Properties Additional Dependencies nppc.lib;nppi.lib;cudart.lib;kernel32.lib;user32.lib;gdi32.lib;w 
4 Configuration Properties Ignore All Default Libraries 
General Ignore Specific Default Libraries 
Debugging Module Definition File 
VC++ Directories Add Module to Assembly 
P C/C++ Embed Managed Resource File 
b CUDA C/C++ Force Symbol References 
4 Linker Delay Loaded Dils 
General Assembly Link Resource 


Input 
Manifest File 


Debugging 

System 

Optimization 

Embedded IDL 

Windows Metadata 

Advanced 

All Options Additional Dependencies 

Command Line Specifies additional items to add to the link command line [ie. kernel32.1ib] 


图 8.3 Linker—=>Input—= Additional Dependencies P &#énppc.lib4#enppi.lib 


Linux 用 户 使 用 静态 链接 选项 ， 并 且 如 果 你 进行 了 静态 链接 ， 你 也 需要 链接 cuLIBOS 库 。 在 我 们 的 文档 中 ， 提 供 了 一 种 静态 
链接 的 方法 ， 代 码 清 单 8.12 给 出 了 一 个 用 于 链接 cuLIBOS 和 NPP 库 的 示例 文档 。 


代码 清单 8.12 sharpen npp/Makefile 


Nvcc = /usr/local/cuda/bin/nvcc 
NVCC FLAGS = -g -G -Xcompiler -Wall 
LIBS += -lnppi static -lippo static -Loeulribons 


all: main.exe 


main.exe: main.cpp 
S(NVCC) $ (NVCC FLAGS) $^ -o $@ $(LIBS) 


oo y AU BUNE 


如 果 你 想 知 道 应 该 怎样 去 获取 与 此 相关 的 信息 ， 这 里 有 一 些 资源 供 你 使 用 。 在 一 个 搜索 引擎 中 输入 “CUDA NPP 附 加 依赖 
项 ”有 助 于 成 功 地 找到 关于 解决 此 问题 的 有 用 信息 。 然 而 这 可 能 会 更 突显 出 CUDA 样 例 的 价值 。 如 果 你 运行 的 CUDA 样 例 需 要 使 
用 相关 的 库 ， 你 可 以 打开 它 的 属性 页 来 检测 包括 附加 依赖 项 在 内 的 各 项 设置 。 


8.5 ”线性 代数 中 的 cuSOLVER 和 cuBLAS 实 践 


现在 我 们 来 学 习 另 一 个 在 代码 库 友 展 和 库 使 用 万 面 都 有 重要 意义 的 领域 : 线性 万 程 组 求解 。 线 性 代数 库 的 研究 先 于 GPU 计 
， 其 中 最 有 意义 的 、 被 广泛 使 用 的 基于 CPU 的 线性 代数 库 包括 基本 线性 代数 库 (Basic Linear Algebra 


Subprograms, BLAS) 和 更 高 级 别 的 线性 代数 子 程序 包 (Linear Algebra Package, LAPACK) 【11]，cuBLAS 是 英 伟 达 对 
BLAS 库 [1 的 GPU 加 速 实现 。 在 版 本 7.0 的 CUDA 工 具 包 中 介绍 的 cuSOLVER 是 类 似 于 LAPACK[L13 的 GPU 加 速 版 本 。cuSOLVER 
包含 三 个 独立 的 库 : 


- cuSolverDN 提 供 因 式 分 解 以 及 稠 帘 矩 阵 的 解决 方法 。 
- cuSolverSP 基 于 稀 玖 矩阵 的 QR 分 解 解决 稀 足 矩阵 问题 和 最 小 二 乘法 问题 。 
- cuSolverRF 加 速 实现 了 共享 同一 稀 鸣 模式 的 多 元 算 阵 再 分 解 方 法 。 


时 然 cuBLAS 和 cuSOLVER 提 供 了 大 量 的 函数 ， 但 这 里 我 们 将 讨论 解决 其 中 的 三 个 并 将 它们 进行 组 合 来 实现 一 个 实用 的 功 
能 : 解决 多 元 线性 回归 或 最 小 二 乘 问题 。 


我 们 将 直接 跳 转 到 引 企 计算 续 性 模型 的 具体 例子 ， 访 蛋 型 如 下 : 友 电 厂 每 小 时 的 产能 效率 与 四 个 输入 变量 有 关 分 别 为 : 温度 
(T) 、 排 气 真空 度 (V) 、 环 境 压力 (P) 和 相对 湿度 (H) 。 其 运算 异型 的 输出 可 被 摘 述 为 输入 的 线性 函数 : 


Cot Cr*T;+cy* V+ cy* Hit cp* P;=b; 


如 果 我 们 有 五 组 测量 值 来 决定 这 五 个 未 知 的 系数 co，cT，cv，chH 和 cp， 之 后 这 就 变 成 了 一 个 很 好 解决 的 5x 5 矩阵 问题 
行 手动 求解 。 不 管 怎样 ， 多 亏 了 加 州 大 学 欧文 分 校 (UCI) 机 器 学 习 资 源 库 14，1?] 对 于 联合 循环 发 电场 相关 数据 的 贡献 ， 它 使 


得 我 们 有 超过 9500 组 可 用 的 测量 值 (注意 ， 为 便于 说 明 ， 我 们 对 变量 的 名 称 稍 做 改动 ) 。 因 此 我 们 要 处 理 一 个 庞大 的 严重 超 定 

(overdetermined) 的 问题 ( 即 方程 数 大 于 变量 数 ) 而 不 是 小 型 的 唯一 确定 的 问题 (五 个 方程 式 包括 五 个 变量 ) 。 我 们 将 这 个 
问题 在 完整 的 数据 集 上 的 情况 ， 留 给 你 来 探索 ， 本 书 构建 一 个 基于 前 九 组 测量 值 的 例子 。 (进行 更 大 量 的 计算 并 不 成 问题 ， 但 是 
输入 全 部 的 数据 组 并 构造 矩阵 涉及 读 入 一 个 .csv 文 件 ， 这 超过 了 本 书 的 范畴 。 ) 


每 一 个 测量 值 都 对 应 了 一 个 方程 ， 它 们 的 测量 变量 分 别 与 5 个 未 知 的 系数 相 乘 并 最 终 加 和 得 到 测量 的 结果 值 b。 之 后 我 们 可 
以 将 方程 组 表示 成 一 个 单独 的 矩阵 方程 式 Ac = b， 其 中 A 为 9x 5 的 矩阵 ， 它 的 列 元 素 值 由 每 个 变量 的 测量 值 组 成 (例如 ，A 的 第 
一 列 为 测 出 的 温度 值 的 向 量 ) ，b 是 测 出 的 产能 效率 的 向 量 (或 9x1 的 矩阵 ) ， 最 终 我 们 要 解 得 一 个 系数 向 量 (或 5x1 和 矩阵 ) c= 
[co，cT，cv，cH，cp]1， 这 样 的 代数 系统 不 容易 直接 求解 ， 但 可 以 使 用 QR 分 解 方法 [1!6,“/] 将 其 转化 为 易 处理 的 形式 。 基 本 思想 
是 任何 矩阵 A 都 可 以 依据 以 下 特性 ， 由 和 矩阵 Q 和 R 来 表示 。 


-QR=A 


QR RAEI RAR (EMME EH REE) ， 所 以 QIQ=I， 其 中 II 为 单位 矩阵 。 


-ReEbL= Ase. 


应 用 分 解 A = QR 并 在 矩阵 方程 两 边 同 时 乘 QI， 我 们 得 到 QIQRc = QIb。 左 边 可 进行 化 简 (因为 QIQ =1，IR= R) ， 最 终 得 
到 Rc = QIb。 此 方程 容易 处 理 ， 因 为 R 是 上 三 角 和 矩阵 。 所 以 最 后 一 个 方程 只 涉及 c 的 最 后 一 项 ， 因 此 我 们 可 以 直接 处 理 这 一 项 ， 
之 后 用 代入 的 方式 依次 解决 方程 中 的 未 知 项 。 此 问题 具体 的 数据 如 表 8.1 所 示 。 


表 8.1 联合 循环 发 电厂 数据 集 里 的 样 例 数 据 


rm Tv 和 ll 


问题 描述 完成 之 后 ， 我 们 可 以 按 以 下 三 个 主要 的 步骤 来 研究 通过 库 来 实现 该 问题 : 
1. 稠 密 算 阵 的 QR 分 解 由 函数 cusolverDnsgeqrf () 给 出 。 消 数 名 结合 了 稠密 矩阵 库 的 名 称 (cusolverDn) 、 浮 点 数据 类 型 


的 指示 符 (S) 以 及 进行 QR 分 解 的 简短 指令 (geqrf) 。 


2. 变 形 后 等 式 的 右 侧 Qib 由 cusolverDnSormqr() 计算 ， 该 名 称 结合 了 稠密 矩阵 库 、 数 据 类 型 指示 符 ， 以 及 “使 用 QR 分 解 
通过 乘 以 Q 重 写 矩 阵 (overwrite matrix by multiplying with Q from QR decomposition) ”这 一 方法 名 称 的 缩写 


(ormar) 。 


3. 反 过 来 通过 解 Rc = QTIb 求 < 的 值 用 到 函数 cublasStrsm () 。 这 里 的 名 称 包 含 了 相关 的 库 (cublas) 、 数 据 类 型 指示 符 (S 
ieee) 以 及 “ 解 三 角 和 矩阵 ” (triangular solve matrix) 方法 名 称 的 缩写 (trsm) 。 


代码 清单 8.16 中 展示 了 基于 库 实 现 多 元 线性 回归 例子 的 代码 。 


代码 清单 8.16 linreg/main.cpp， 使 用 cuSOLVER 库 和 cuBLAS 库 解决 多 元 线性 回归 问题 


1 #include <stdio.h> 
2 #include <cuda_runtime.h> 
3 #include <cusolverDn.h> 
4 #include <cublas v2.h> 
S 
6 #define MIN(X, Y) (tx) e {¥) 2 (X) & {Y} 
o 
8 int main() { 
9 // Create A (m by n) and b (m by 1) on host and device. 
10 const int m = 9, n = 5; 
11 const int lda = m, ldb = m; 
a Re 
13 float A[m*n] = { 
14 Los Lale ay dey daly 2.05 LeU ay 228, 
LS Bete; 23:06, 29.78, LS.y Bboy Lardi; 22ed 28,47, ALAS, 
16 40.77, 58.49,56.9,49.69,40.66,39.16,71.29,41.76, 69.51, 
17 POLO. 656; LUIL. 4; 1007215. LOOF eas 101.13, 10160.05; 100GA; 
18 1021.98, 1010.25, 
19 90.01, 4002-41491, 164.79, 9fc2, 84.6, 154356, 76.41, 36.83}; 
20 float b[m] = { 
21 480.48, 445.75,438.76,453.09,464.43, 470.96,442.35,464, 428.77}; 
22 
23 float *d A = w *d b = 0; 
24 cudaMalloc (&d_. m*n*sizeof (float) ) ; 
25 cudaMemcpy (dA ‘A, m*n*sizeof(float), cudaMemcpyHostToDevice) ; 
26 cudaMalloc (&d b, m*sizeof(float)})); 
27 cudaMemcpy (d_ b, b, m*sizeof (float), cudaMemcpyHostToDevice) ; 
28 
29 // Initialize the CUSOLVER and CUBLAS context. 
30 cusolverDnHandle t cusolverDnH = 0; 
3L cublasHandle_t cublasH = 0; 
32 cusolverDnCreate (&cusolverDnH) ; 
33 cublasCreate (&cublasH) ; 
34 
35 // Initialize solver parameters. 
36 float *tau = 0, *work = QO; 
37 int *deviInfo = 0, Lwork = 0; 


38 cudaMalloc(&tau, MIN(m,n) *sizeof (上 Loat) ) ; 


39 cudaMalloc(&devinfo, sizeof(int) ); 

40 const float alpha = 1; 

41 

42 // Calculate the size of work buffer needed. 

43 cusolverDnSgegqrf bufferSize(cusolverDnH, m, n, dA, lda, &Lwork) ; 
44 cudaMalloc(&work, Lwork*sizeof(float))/; 

45 

46 // A = QR with CUSOLVER 

47 cusolverDnSgegrf (cusolverDnH, m, n, dA, lda, tau, work, Lwork, 
48 devinfo) ; 

49 cudaDeviceSynchronize() ; 

50 

51 // z = (Q°T)b with CUSOLVER, z is mx 1 

52 cusolverDnSormgqr (cusolverDnH, CUBLAS SIDE LEFT, CUBLAS OP T, m, 1, 
53 MIN (m, n), d A, lda, tau, d b, ldb, work, Lwork, 
54 devinfo) ; 

55 cudaDeviceSynchronize() ; 

56 


57 // Solve Rx = z for x with CUBLAS, x is Nn X 1. 

58 cublasStrsm(cublasH, CUBLAS SIDE LEFT, CUBLAS FILL MODE UPPER, 

59 CUBLAS OP N, CUBLAS DIAG NON UNIT, n, 1, &alpha, d A, 
60 lda, d b, 1db); 

61 // Copy the result and print. 

62 float x[n] = {0.0}; 


63 cudaMemcpy (x, d_b, n*sizeof(float), cudaMemcpyDeviceToHost) ; 
64 for (int i = 0; i < n; ++i) printf ("x[%d] = t£f\n", i, x[il); 
65 

66 cublasDestroy(cublasH) ; 

67 cusolverDnDestroy (cusolverDnH) ; 

68 cudaFree(d A); 

69 cudaFree (d_b); 

70 cudaFree (tau); 

KL cudaFree (devinfo) ; 

Ta cudaFree (work); 

73 return 0; 

74 } 


代码 以 包含 必要 的 库 的 指令 作为 开始 ， 并 定义 了 一 个 有 用 的 宏 MIN。main () 函数 以 相关 的 容量 的 声明 开始 ， 包 括 在 增 广 
矩阵 中 的 行 数 m 和 人 列 数 n ( 即 ， 人 A 矩阵 的 第 1 列 初 始 化 为 1， 然 后 与 co 相 乘 ) 以 及 等 式 两 边 的 矩阵 维 数 (本 例 中 均 为 m) 。 第 
13~21 行 采用 了 对 输入 数据 的 硬 编码 ， 你 可 能 想 将 它们 蔡 换 为 可 以 从 一 个 文件 中 读 取 的 数据 以 灵活 处 理 更 大 的 问题 。 第 23~27 行 
分 配 设备 内 存 并 传送 A 与 b 中 的 数据 。 第 29~44 行 做 些 准 备 工 作 ， 包 括 在 第 43 行 中 调用 一 个 库 函 数 来 决定 计算 所 需 的 工作 缓 仓 的 
容量 大 小 。 之 后 的 第 47、52 和 58 行 中 调用 了 三 个 之 前 讨论 过 的 主要 的 库 阔 数 以 计算 QR 分 解 ， 并 构造 变形 后 的 等 式 的 左 侧 部 分 ， 
再 反 过 来 求解 林 知 系数 向 量 ， 在 第 63 行 和 第 64 行 中 将 它们 传 回 主 存 并 显示 最 终 的 结果 。 剩 余 的 代码 通过 销毁 之 前 创建 的 上 下 文 
以 及 释放 分 配 的 内 仔 ， 来 完成 清理 工作 。 


在 Linux 系 统 上 运行 此 代码 的 文档 如 代码 清单 8.17 所 示 。 在 Windows 下 的 Visual Studio 中 ， 一 定 要 向 附加 链接 输入 依赖 项 中 
添加 cublas.lib 和 cusolver.lib ， 可 参考 企 本 章 中 稍 早 时 介绍 的 “链接 库 文 件 ”， 见 图 8.3。 


代码 清单 8.17 linreg/Makefile 


Nvcc = /usr/local/cuda/bin/nvcc 
NVCC FLAGS = -g -G -Xcompiler -Wall 
LIBS += -lcublas static -lcusolver static -lculibos 


all: main.exe 


main.exe: main.cpp 
S(NVCC) $(NVCC_FLAGS) $< -o $@ $(LIBS) 


ODA MO PWD HP 


基于 数据 集 里 前 九 个 示例 数据 运行 代码 ， 得 到 如 下 系数 向 量 : 
c=| 834.18, -2.149, —0.378, —0.300, -0.209 | 


线性 回归 关系 为 : 


b= 843.18-2.149* T-0.378* V—0.300*P-0.209*H 
并 且 我 们 可 以 通过 将 数据 集 里 其 他 样 例 数据 输入 程序 来 进行 测试 (这 就 是 为 什么 我 们 要 额外 留 出 不 参与 计算 的 样 例 数据 ) 。 
将 表 8.1 中 的 最 后 一 行 数据 值 代入 回归 公式 得 到 b = 483.21， 与 表 中 的 实际 值 相差 0.296， 


最 后 是 天 于 错误 处 理 的 注解 : 附录 D 中 给 出 的 错误 处 理 的 方法 对 于 使 用 cuBLAS 和 cuSOLVER API 是 完全 有 效 的 ， 因 此 
helper cuda.h 中 的 函数 checkCudaErrors () 可 以 用 来 处 理 cuBLAS 和 cuSOLVER 错 误 。 尽 管 这 里 为 了 清晰 起 见 省 略 了 错误 处 理 
过 程 ， 我 们 还 是 建议 你 在 开 友 cuBLAS 和 cuSOLVER 应 用 时 ， 将 所 有 的 CUDA 调 用 ,包括 cuBLAS 和 cuSOLVER 封 浴 起 来 ， 放 入 
checkCudaErrors () 下 进行 错误 处 理 。 


8.6 cuDNNÆ 


机 器 学 习 在 GPU 计 算 中 已 经 成 为 最 热门 的 主题 之 一 ， 所 以 你 需要 了 解 与 此 相关 的 英 伟 达 CUDA 深 度 神经 网 络 库 cuDNN， 以 
及 深度 学 习 训练 系统 NVIDIA DIGITS。cuDNN 可 以 用 于 广泛 使 用 的 深度 学 习 框 染 的 执行 ， 包 括 Caffe、Theano 以 及 Torch。 具 
体 的 内 容 ， 请 参考 cuDNN 网 站 https://developer.nvidia.com/cudnn 和 DIGITSs 网 站 https://developer.nvidia.comy/digits。 


8.7 ”ArrayFire 库 


最 后 ， 我 们 简单 介绍 一 下 ArrayFire 库 ， 它 的 定义 如 下 [18]: 
ArrayFire 是 一 个 提供 易于 使 用 API 的 用 于 并 行 计算 的 高 性 能 软件 库 。 其 基于 数组 的 函数 集 使 并 行 编程 更 容易 理解 。 


对 于 那些 拥有 Matlab 背 景 的 读者 ，ArrayFire 可 能 会 更 具 诱 恶 ， 因 为 相 较 于 C 语 言 ， 它 的 编程 风格 与 Matlab 的 更 接近 。 
ArrayFire 也 是 开源 的 和 跨 平台 的 ， 因 此 它 可 以 利用 基于 GPU 的 SIMT 并 行 的 优点 ， 但 同时 也 可 以 在 其 他 的 硬件 上 执行 (对 于 执行 
性 能 的 预期 也 要 做 适当 调整 ) ， 基 于 ArrayFire 构 建 的 应 用 可 以 非常 简明 ， 如 果 你 感 兴趣 ， 应 该 去 检验 它们 的 实例 以 得 到 对 于 其 


特性 的 更 具体 的 认识 。 


88 ”本 童 小 结 


我 们 已 经 示 学 了 一 些 可 供 你 使 用 的 CUDA 库 。 我 们 希望 这 些 样 例 代 码 可 以 为 你 友 据 更 多 的 库 抛砖引玉 ， 它 们 会 使 你 的 编码 更 


加 人 简洁、 高 效 。 


8.9 ”推荐 项 目 


1. 在 估算 nt 值 的 Thrust 版 本 例子 中 ， 产 生 区 间 [0，1] 上 的 随机 坐标 的 方法 为 : 生成 随机 整数 的 向 量 ， 之 后 除 以 随机 整数 生成 
器 产生 的 最 大 值 RAND_MAX， 这 两 个 运算 均 在 主机 上 执行 。 这 一 特定 的 随机 数 生成 器 仅仅 是 主机 函数 ， 因 此 计算 需要 在 主机 端 
完成 。 然 而 ， 这 对 除法 运算 而 言 ， 没 有 利用 设备 端的 并 行 性 ， 并 不 明智 。 修 改 代码 使 随机 数 在 主机 上 生成 ， 但 在 GPU 中 并 行 地 
进行 除法 运算 ， 可 以 使 用 thrust: : transform 和 一 个 设备 向 量 。 


2. 借 助 于 代码 清单 8.10 中 展示 的 cuRAND 版 本 的 Tt 估计 ， 考 虑 以 下 间 题 。 
a. 如 果 你 多 次 运行 程序 ， 你 会 始终 得 到 相同 的 结果 吗 ? 这 对 于 蒙特 卡 罗 算 法 来 说 是 好 事 还 是 坏事 ? 


b. 进 行 试验 改变 第 11 行 中 的 种 子 值 ， 这 是 否 生成 了 新 的 结果 ? 如 果 保 持 新 的 种 子 值 不 变 ， 再 次 运行 程序 是 人 否 册 次 得 到 相同 的 
结果 ? 


Cc. 探 索 cuURAND 来 学 习 状 态 和 偏 移 。 修 改 代码 使 其 每 次 运行 市 有 不 同 随机 数 集 并 (正确 地 ) 产生 不 同 的 结果 。 


3. 使 用 Thrust 库 ， 修 改 dist1D fused 来 创建 dist2D fused， 使 其 成 为 可 以 与 第 4 章 中 的 dist2D 国 数 具 有 相同 功能 的 程序 。 建 
议 使 用 一 个 计数 迭代 器 来 提供 一 个 虚拟 的 线性 索引 和 一 个 可 计算 row 和 col 索 引 的 函数 ， 将 它们 转化 为 X、y 坐 标 ， 并 计算 其 与 参 
考点 的 距离 。 


4. 使 用 NPP 库 来 定量 地 验证 sharpen 和 sharpenNPP 对 于 给 出 的 输入 图 像 得 到 了 相同 的 结果 。 


5. 创 建 一 个 交互 式 图 像 处 理 程 序 来 展示 NPP 库 提供 的 一 些 能 力 。 (基于 flashlight 应 用 的 OpenGL 交 互 操作 特性 或 基于 Clmg 
的 图 像 显 示 特 性 或 其 他 可 供 你 选择 的 库 。 ) 


6. 使 用 代码 清单 8.9 中 阐述 的 thrust: : tuple 和 thrust: : zip iterator 实 现 对 Tn 的 估计 。 


7. 合 并 一 个 实现 读 入 标准 文件 输入 格式 的 代码 ， 例 如 用 逗号 隅 开 的 值 (comma-separated-value, CSV) ， 并 尝试 把 线性 
回归 程序 应 用 到 更 大 的 数据 集 。 
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第 9 章 ” ”探索 CUDA 和 生态 系统 


与 CUDA 有 关 的 资源 合集 (包括 书 、 网 站 、 博 客 、 软 件 、 文 档 ) 经 党 被 称 为 “CUDA 和 生态 系 统 ”。 作 为 本 书 的 最 后 一 章 ， 提 
供 一 系列 材料 的 床 引 ， 它 们 能 帮助 你 探索 CUDA 生 态 系统 。 这 些 材料 的 简短 拉 述 可 以 帮助 你 找到 CUDA 某 一 方面 或 某 种 应 用 的 资 
料 。 


9.1 主要 贷 源 的 权威 刘表 


让 我 们 从 一 个 简短 的 资源 列表 开始 ， 列 表 包 含 了 你 应 该 了 解 的 内 容 。 


9.2 AZAR 


先前 列举 的 资源 在 我 们 写 书 的 时 候 已 经 存在 并 且 得 到 了 广泛 应 用 。 然 而 ，CUDA 生 人 态 系 统 正在 加 速 友 展 ， 相 天 的 资源 列表 将 


寺 续 增长 。 这 里 列举 了 一 些 你 可 能 想 尝 试 的 资源 。 


9.3 “本章 小 结 


我 们 现在 已 经 来 到 本 书 的 结尾 了 。 视 贺 你 坚持 到 这 里 ， 并 且 我 们 也 衷心 希望 你 的 收获 能 配 得 上 你 投入 的 时 间 与 精力 。 在 你 学 
习 本 书 的 过 程 中 ， 如 果 有 哪 一 个 样 例 促使 你 想到 了 有 趣 的 项 目 ， 那 么 我 们 的 目的 便 达 到 了 ， 同 时 也 预示 你 步 入 了 正轨 : 使 用 
CUDA 支 持 的 大 规模 并 行 计算 的 能 力 去 完成 新 闲 和 令 人 惊喜 的 事情 。 


在 许多 人 都 谈论 着 3D 打 印 〈 另 一 种 上 友 生 在 我 们 身边 的 估 闯 技术 ) 如 何 代表 了 制造 业 的 大 众 化 的 主要 力量 时 ， 你 正在 杀身 参 
与 并 行 计 算 的 大 众 化 。 我 们 希望 你 能 好 好 利用 这 些 新 的 资源 以 便 增长 你 的 兴趣 ， 甚 至 可 能 增长 人 类 的 知识 。 再 次 感谢 你 与 我 们 一 
同 分 享 CUDA 之 旅 ， 当 你 继续 在 那 激动 人 心 的 CUDA 世 界 中 旅行 时 ， 祝 你 好 运 。 


94 推荐 项 目 


此 时 ， 你 应 该 很 有 资格 去 探索 一 些 更 具 挑 战 的 CUDA 项 目 了 ， 效 列 于 下 : 
1. 确 定 一 个 CUDA 的 库 、 语 言 ， 或 AP| ( 它 有 看 上 去 有 用 的 特征 或 国 数 ) ， 并 且 将 它们 用 在 你 个 人 感 兴 趣 的 问题 上 。 


2. 确 定 一 个 有 趣 的 CUDA 样 例 ， 弄 明日 它 要 做 什么 以 及 它 是 如 何 达到 目标 的 。 写 下 你 的 搞 述 并 且 将 它 与 你 身边 了 解 CUDA 的 
朋友 分 享 。 


3. 观 看 一 个 有 趣 的 GTC 讲 座 。 (如 果 你 没有 明确 的 个 人 兴趣 ， 束 从 一 个 主题 讲座 开始 。 主 题 讲 座 都 包含 了 重要 而 有 趣 的 高 质 
量 内 容 。) 写 下 一 个 快速 简介 ， 并 将 它 分 享 给 对 CUDA 感 兴趣 的 朋友 。 


4. 访 问 http://stackoverflow.com， 并 且 在 搜索 框 中 输入 “CUDA”， 单 击 票数 标签 ， 并 且 阅 读 排名 前 10 的 问题 和 回答 。 
5. 审 视 在 线 的 CUDA 课 程 中 的 部 分 内 容 。 

6. 查 找 男 一 本 CUDA 书 籍 ， 看 能 否 找 到 一 些 与 你 的 目标 有 关 的 内 容 。 

7. 找 一 本 新 发 行 的 CUDA 书 籍 。 审 视 书 的 内 容 和 呈现 风格 。 写 一 篇 评论 和 你 的 朋友 分 享 。 


8. 学 习 最 新 、 最 棒 地 利用 CUDA 大 规模 并 行 计算 能 力 的 应 用 。 


附录 A 硬件 设置 


如 果 要 让 一 台 计 算 机 支持 CUDA 并 行 计算 平台 ， 必 须 保证 其 硬件 和 软件 均 支 持 CUDA。 硬 件 的 支持 主要 为 计算 机 是 人 否 有 支持 


CUDA 的 GPU 来 决定 。 本 章 将 介绍 如 何 查 看 计算 机 是 人 否 有 叉 持 CUDA 的 GPU， 不 同 的 操作 系统 查看 方式 不 同 ， 本 章 分 别 对 

Windows, OS X 以 及 Linux 操 作 系统 的 查看 方式 进行 了 介绍 ， 读 者 可 根据 目 己 的 操作 系统 有 针对 性 地 阅读 〈 如 果 你 的 计算 机 生 
产 商 已 经 将 NVIDIA 显 卡 类 型 的 绿色 小 标签 贴 关 了 计算 机 显眼 的 位 置 上 ， 那 么 你 可 以 直接 阅读 A.4 节 ) 。 此 外 ， 我 们 还 讨论 了 如 
何 获 取 以 及 如 何 安 六 支持 CUDA 的 GPU,， 不 同 的 硬件 平台 ， 操 作 不 尽 相同 。 表 次 强调 ， 根 据 目 己 的 实际 情况 选择 性 地 阅读 本 草 。 


A.1 在 Windows 下 奏 看 NVIDIA GPU 型 号 


在 Windows 抹 面 单 击 姐 标 右 键 ， 若 弹出 菜单 中 没有 NIVIDA 控 制 面板 《NVIDIA Control Panel) 选项 ， 则 请 阅读 A.5 节 ; 如 
果 有 该 选项 ， 则 单 击 打开 NIVIDA 控 制 面 板 ， 单 击 “Home” 图标 ， 将 会 出 现 如 图 A.1 所 示 的 界面 ， 界 面 中 显示 了 一 张 写 着 
NVIDIA 控 制 面板 的 图 片 ， 图 片 最 下 万 写 着 该 机 器 的 GPU 型 号 (此 处 为 GeForce 840M) 。 确 定 GPU 型 号 之 后 则 可 和 直接 阅读 A.4 


TJo 


B NVIDIA Control Panel 
File Edit Desktop Help 
Onak -O Ü 


G3D Settings 
Adjust image settings with preview N V | D | A 
-Manage 3D settings 
‘Set PhysX Configuration CONTROL PANEL 
Version 352.78 
GeForce 840M 


图 A.1 NVIDIA 控 制 面板 Home 页 所 显示 的 NVIDIA GPU 信息 


A.2 人 在 OS X 下 但 看 NVIDIA GPU 型 号 


单 击 苹果 菜单 ， 选 择 关于 本 机 (About This Mac) 选项 ， 单 击 显示 器 (Displays) 选项 卡 可 以 看 到 本 机 的 显示 器 信息 和 
GPU 型 号 ， 如 图 A.2 所 示 ， 该 机 器 的 GPU 型 号 为 GeForce GT 650M。 确 定 GPU 型 号 之 后 则 可 直接 阅读 A.4 节 。 若 显示 结果 中 没有 
NVIDIA GPU， 则 请 阅读 A.5 节 。 


ooo Overview 


Storage Memory Support Service — 


Built-in Display 
21.5-inch (1920 x 1060) 
NVIDIA GeForce GT 650M 512 MB 


_ Displays Preferences... | 


图 A.2 关于 本 机 中 显示 器 选项 卡 所 显示 的 NVIDIA GPU 信息 
A.3 ”在 Linux 下 查看 NVIDIA GPU 型 号 
从 命令 行 中 输入 以 下 命令 (在 Ubuntu 中 可 以 通过 Ctrl+Alt+T 组 合 键 打 开 命 令 行 ) : 


lspci | grep -i nvidia <Enter> 


这 条 命令 会 列 出 该 计算 机 上 的 所 有 外围 设备 (ls 是 list 的 缩写 ，pci 表 示 显 卡 之 类 的 外 围 设备 与 CPU 连 接 的 通信 息 线 ) o grep 
命令 是 一 个 模式 匹配 工具 ， 列 出 的 所 有 外 设 结果 将 输送 给 grep 命 令 ， 访 命令 会 找 出 所 有 包 售 nvidia 单词 的 外 设 并 显示 输出 ，-i 寺 
示 grep 命 令 搜索 时 忽略 关键 子 的 大 小 写 。 我 们 试 着 在 一 从 Linux 机 器 上 输入 该 命令 ,命令 行 返回 的 结果 是 : 01: 00.0 VGA 
compatible controller: NVIDIA Corporation GF108[GeForce GT 620] (rev a1) ， 这 表示 当前 机 器 的 显卡 为 GeForce GT 
620。 


如 果 计算 机 没有 NVIDIA 显 卡 ， 则 请 阅读 A.5 节 。 如 果 发 现 有 NVIDIA 显 卡 ， 查 看 显卡 型 号 后 请 阅读 A.4 节 。 
AA 确认 计算 能 


NVIDIA CUDA 的 官方 网 址 提供 了 所 有 CUDA 显 卡 与 其 计算 能 力 的 对 应 关系 表 。 访 问 https://developer.nvidia.com/cuda- 
gpus 可 以 查询 自己 机 器 显卡 的 计算 能 力 。 


目前 ， 支 持 CUDA 的 GPU 主 要 有 Tesla、Quadro、NVS、GeForce 以 及 TEGRA/jJetson 这 几 个 系列 。 本 附录 示例 中 三 个 操作 
系统 所 涉及 的 GPU 都 是 GeForce 类 型 的 GPU， 因 此 我 们 需要 单 击 “CUDA-Enabled GeForce Products” 链 接 ， 然 后 会 显示 两 
类 产品 的 显卡 计算 能 力 结果 ， 分 别 是 GeForce Desktop Products 与 GeForce Notebook Products， 从 这 两 列 结果 中 查找 显卡 
对 应 的 计算 能 力 。 本 附录 Windows 系 统 示例 中 的 显卡 是 一 款 搭载 在 笔记 本 电脑 上 的 GeForce 840M 显 卡 ， 计 算 能 力 为 5.0。Marc 
系统 的 显卡 为 GeForce GT 650M ， 计 算 能 力 为 3.0。Linux 系 统 的 显卡 是 GeForce GT 620， 计 算 能 力 为 2.1。 


读者 可 根据 上 自己 的 显卡 型 号 到 指定 列 去 查找 显卡 的 计算 能 力 。 如 果 你 的 机 器 六 有 GPU 且 计算 能 力 在 2.0 以 上 ， 那 么 你 可 以 开 
始 阅 读 附 录 B， 安 装 相 应 的 软件 。 


为 什么 更 新 计算 能 力 ? 
" 如 果 显卡 的 计算 能 力 低 于 2.0， 则 需要 升级 显卡 的 计算 能 力 ， 否 则 无 法 运行 本 书 中 讨论 到 的 代码 。 
+ 如 果 你 需要 使 用 托管 内 存 (Managed Memory) (例如 第 3 章 中 涉及 的 显存 使 用 ) ， 则 显卡 的 计算 能 力 必须 在 3.0 以 上 。 


“ 如 果 你 需要 用 到 动态 并 行 (本 书 中 未 曾 涉 及 ) ， 则 显卡 的 计算 能 力 必须 在 3.5 以 上 。 更 多 关于 计算 能 力 的 细节 请 查看 
NVIDIA CUDA Zone 的 官方 文档 或 维基 百科 上 的 CUDA 主 页 : https://en.wikipedia.org/wiki/CUDA。 


. 如 果 用 户 需要 进行 大 规模 的 双 精 度 计 算 ， 则 可 以 着 重 考虑 使 用 Tesla 卡 (该 系列 显卡 的 价格 较 高 且 功 率 也 较 大 ) 。 
硬件 术语 


通常 ， 我 们 说 的 GPU 一 般 指 的 是 像 GeFotce 840M 这 样 指定 的 显卡 型 号 ， 而 不 是 GPU 芯 片 。 该 显卡 搭载 着 一 颗 Maxwell 架 构 的 
GM108 芯 片 。 因 此 ， 当 我 们 谈 及 CUDA 硬 件 时 ， 主 要 涉及 4 个 概念 : 显卡 的 类 型 名 /编号 、GPU 芯 片 的 名 称 /编号 、 计 算 能 力 和 架 
构 类 型 。 本 书 主 要 关注 的 是 显卡 的 类 型 名 /编号 (因为 在 我 们 查看 系统 硬件 或 购买 新 显卡 时 显卡 类 型 名 /编号 是 最 简单 、 最 常用 的 
表达 方式 ) 以 及 计算 能 力 (许多 应 用 程序 对 计算 能 力 有 指定 的 要 求 ) 。 然 而 ， 读 者 仍 需 对 GPU 的 架构 有 所 了 解 ， 因 为 不 同 架 构 的 
GPU 处 理 单元 以 及 显存 的 大 小 特性 都 有 所 不 同 。 历 代 NVIDIA CUDA 架 构 术 语 如 下 : 


- Tesla: 最 早 的 CUDA 卡 (起 源 于 2007 年 ) ， 计 算 能 力 在 1.0 到 1.3 之 间 。 

- Fermi: 第 二 代 CUDA 卡 (起 源 于 2010 年 ) ， 计 算 能 力 在 2.0 到 2.1 之 间 。Fermi 架 构 显 卡 几 乎 能 运行 本 书 涉及 的 所 有 代码 。 
Keplet: 第 三 代 CUDA 卡 (起源 于 2012 年 ) ， 计 算 能 力 在 3.0 到 3.7 之 间 。Keplet 架 构 显 卡 能 运行 本 书 涉 及 的 所 有 代码 。 

- Maxwell: 第 四 代 CUDA 卡 (起 源 于 2014 年 ) ， 计 算 能 力 5.x。 


- Pascal: 第 五 代 CUDA 卡 ，2016 年 发 布 。 


A5 ”升级 计算 能 


升级 计算 能 力 有 一 定 的 前 提 条 件 ， 对 于 像 Mac 以 及 笔记 本 这 类 电脑 ， 需 要 看 生产 商 是 否 设 置 了 一 定 的 硬件 配置 ， 而 对 于 安 
闻 了 Windows 或 Linux 的 台式 机 ， 则 需要 看 其 是 人 否 允 许 更 新 。 


A.5.1 Mac 或 笔记 本 电脑 所 配置 的 GPU 支持 CUDA 计 算 


对 于 Mac 或 笔记 本 电脑 而 言 ， 安 委 新 的 硬件 组 件 十 分 困难 。 各 读者 使 用 的 是 此 类 电脑 ， 升 级 计算 能 力 则 意味 着 需要 重新 购 
买 一 台 内 置 支持 CUDA 的 GPU 的 电脑 。 
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苹果 公司 一 和 直 使 用 着 不 同 生产 丙 提 供 的 不 同类 型 的 GPU， 因 此 ， 如 果 想 在 OS X 下 运行 CUDA， 首 先 需 要 在 苹果 专卖 店 购 买 


一 台 配 置 有 NVIDIA 显 卡 的 Mac。 


在 笔记 本 电脑 市 场 中 ， 配 置 有 支持 CUDA 的 GPU 的 笔记 本 电脑 并 不 多 ， 但 它们 的 价格 普遍 十 分 合理 。 大 多 数 的 笔记 本 电脑 都 
配置 着 一 块 Intel 集 成 显卡 和 一 块 支持 CUDA 的 NVIDIA 独 立 显卡 (有 时候 也 用 NVIDIA Optimus 表 示 ) ， 集 成 显卡 负责 显示 (如 
显示 屏 的 图 形 显示 ) , NVIDIA GPU 用 来 做 计算 。 一 般配 置 有 支持 CUDA 的 GPU 的 笔记 本 电脑 都 被 称 作 游戏 本 。 读 者 可 以 访问 
NVIDIA 的 Notebook 主 页 (http://www.nvidia.com/object/notebooks.html) ， 根 据 自己 青睐 的 GPU 型 号 ， 找 到 对 应 厂商 提 
供 的 配置 有 该 GPU 的 笔记 本 电脑 。 


在 结束 对 笔记 本 电脑 的 讨论 之 前 ， 我 们 先 来 了 解 一 下 功 耗 。 目 前 许多 强大 的 游戏 本 中 都 配置 着 高 端 移动 GPU， 例 如 
GeForce GTX 900M 系 列 。 这 些 游戏 本 在 计算 性 能 和 散热 能 力 上 表现 都 非常 出 色 。 这 种 高 端 显卡 的 功率 大 概 在 100W， 需 要 很 好 
的 风扇 和 排 风 管道 帮助 散热 。 读 者 可 以 根据 自己 的 实际 需求 选择 一 款 最 适合 的 笔记 本 电脑 ， 但 也 有 一 些 性 价 比 高 的 选择 ， 例 如 配 
置 有 GeForce 840M 的 笔记 本 电脑 。GeForce 840M 拥 有 384 颗 计算 核心 ， 计 算 能 力 ?.0， 拥 有 2GB 显 仔 ， 功 率 仅 30W。 这 类 笔记 
本 电脑 只 需 采 用 被 动 散 热 ， 在 承担 很 多 计算 任务 时 ， 也 能 兼 具 轻 量 级 和 静音 特点 。 


A.5.2 台式 机 


如 果 读 者 使 用 的 是 台式 机 ， 那 么 就 可 以 自己 扩展 安装 一 个 GPU， 但 前 提 是 你 得 有 勇气 打开 你 的 机 箱 (电源 关闭 的 情况 
下 ) 。 机 箱 打 开 后 ， 有 两 个 关键 硬件 需要 注意 : 


. 主板 上 的 PCIe-3.0 插 模 
- 连接 PCle 与 电源 之 间 的 供电 线 


图 A.3a 是 机 箱 打 开 之 后 的 显示 图 ， 里 面包 含 主板 和 电源 。 图 A.3b 为 主板 上 外 设 插 槽 局 部 放大 图 。 左 侧 的 印刷 体 字 表示 连接 
头 的 类 型 。 这 人 台 机 器 中 有 两 个 PCle 揪 槽 ， 分 别 是 上 方 标记 为 PCIEX16 1 的 蓝 色 插 槽 和 下 方 标记 为 PCIEX16 2 的 白色 插 槽 ， 方 框 
里 为 两 个 插 槽 的 名 称 。 
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b) 主板 外 设 捅 槽 局 部 放大 图 ， 主 要 
为 两 个 PCIe x16 搬 模 ， 方 框 内 为 
插 模 的 编号 名 称 


a) 台式 机 机 箱 内 部 人 硬件 展示 图 ， 内 含 主 板 和 外 设 


图 A.3 ”打开 机 箱 


如 果 你 的 机 器 有 PCle x16 插 槽 ， 那 么 就 可 以 安装 支持 CUDA 计 算 的 显卡 。 有 些 支持 CUDA 的 显卡 可 以 直接 通过 PCle x16 揪 模 
获得 供电 ， 而 不 需要 额外 的 电源 线 ， 这 种 方式 比较 简单 。 类 似 的 显卡 有 GeForce GTX 750 Ti， 其 拥有 640 个 核 ， 计 算 能 力 为 
5.0， 最 大 额定 功率 为 60W (一 个 300W 功 率 的 电源 即 可 满足 ) 。 如 果 你 的 机 箱 过 小 ， 可 以 考虑 GeForce GT 620 (96 个 核 ， 计 算 
能 力 2.1) 。GeForce GT 620 的 计算 能 力 并 不 强悍 ， 但 它 只 有 一 般 显 卡 的 二 分 之 一 宽 ， 较 扁平 ， 适 合 许多 较 小 的 机 箱 。 


图 A.4 两 个 PCIe 播 槽 分 别 安 装 有 GPU 的 台式 机 效果 图 。PCIEX16 1 安装 的 是 GeFotrce GT 010 显卡 ，PCIEX16_ 222 #9 Æ GeForce 


GTX 980 显 卡 。 小 框 内 为 与 GeForce GTX 980 连 接 的 额外 电源 接头 ， 而 放大 框 内 为 其 与 电源 接头 未 连接 时 针 口 外 露 的 状态 


图 A.3 中 的 台式 机 主板 有 两 个 PCle x16 揪 槽 和 两 个 PCle 电 源 接头 ， 可 以 插 两 块 支持 CUDA 的 显卡 ， 其 中 一 个 可 以 是 需要 额外 
电源 的 高 端 显卡 。 图 A.4 显 示 了 一 台 在 PCIEX16 1 上 安装 GeForce GT 610， 在 PCIEX16 2 上 安装 GeForce GTX 980 的 台式 机 机 
箱 。 在 图 片 右 侧 是 局 部 放大 图 ， 为 清晰 起 见 ，PCle 6 针 口 和 6+2 针 口 电 源 接口 并 未 连接 电源 接头 。 如 果 读 者 有 这 两 块 显卡 ， 则 可 
以 用 低 端 卡 负责 显示 ， 用 高 端 卡 负责 计算 任务 ， 这 是 使 用 CUDA 时 常见 的 一 种 硬件 配置 方式 。 


检查 完 主 板 上 PCle x16 插 槽 和 PCle 电 源 接 头 之 后 ， 读 者 即 可 根据 自己 的 需要 选择 相应 类 型 的 显卡 (电源 的 功率 是 一 个 重要 
信息 ， 读 者 需 学 会 辨认 电源 功率 ) 。 你 可 以 访问 CUDA GPU 主页 (htt ps://d evelo per.r idi cuda gpus) 选择 目 己 感 兴 
趣 的 显卡 ， 然 后 单 击 规格 (Specifications) 查看 电源 接头 和 电源 供电 能 力 的 详细 信息 。 


IVidla.com/ 


确定 感 兴趣 的 GPU 之 后 ， 将 其 型 号 输入 到 搜索 引擎 中 查看 其 价格 以 及 是 否 能 在 市 场 上 买 到 。 新 GPU 通 弟 会 定期 地 投放 到 市 
场 ， 价 格 也 会 随 着 时 间 变 化 ， 因 此 我 们 可 以 对 一 些 新 的 改 恨 后 的 GPU 有 所 期 待 。 对 于 购买 娱乐 性 的 显卡 ， 只 要 确定 GPU 型 号 之 
后 ， 向 你 最 中 意 的 供应 商 友 送 订单 即 可 。 


当 GPU 卡 送 到 之 后 ， 其 安 六 非常 们 单 。 在 确认 关 挥 电源 之 后 ， 打 开机 箱 (大 检查 PCle 插 槽 和 电源 接头 之 后 机 箱 封 上 了 ) ， 
拆 开 GPU 卡 包装 ， 然 后 将 其 插入 PCle x16 插 模 即 可 。 注 意 GPU 只 能 朝向 一 面 插入 ( 带 金 属 片 的 那 头 应 紧 靠 机 箱 外 侧 使 其 能 够 利 
用 螺丝 与 机 箱 固定 ) 。 将 GPU 牢固 地 插 到 插 槽 中 ， 铝 有 必要 需 连 接 额 外 电源 ， 然 后 封 上 机 箱 。 


之 后 局 动 计算 机 ， 接 入 因特网 ， 进 入 操作 系统 后 ， 系 统 应 能 够 识别 到 新 安 六 的 硬件 设备 ， 之 后 只 需 按照 要 求 下 载 指定 驱动 。 
天 于 如 何 检查 系统 识别 的 硬件 结果 ， 请 仔细 阅读 A.1 节 至 A.3 节 ， 查 看 机 器 上 安 闪 的 显卡 型 号 。 至 此 ， 硬 件 安 洲 部 分 全 部 结束 ， 接 
下 来 你 可 以 继续 按照 附录 B 进 行 软件 配置 。 


附录 B ”软件 设置 


有 了 配备 GPU 的 计算 机 之 后 ， 接 下 来 束 是 安装 CUDA 的 相关 软件 了 。 本 草 我 们 将 对 CUDA 相 关 软 件 和 它们 的 安 六 过 程 进 行 介 
绍 。 注 意 ， 不 同 的 操作 系统 下 软件 安装 步骤 不 同 ， 我 们 将 针对 Windows、OS X 以 及 Linux 三 种 操作 系统 的 软件 安装 分 别 进行 介 
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在 Windows 下 安 闻 CUDA 相 天 软件 
只 要 有 一 人 台 合 适 的 PC (能 够 运行 Windows 7 及 以 上 版 本 系统 ) 束 可 以 开始 安装 相关 软件 了 。 主 要 步骤 如 下 : 
` 创建 系统 还 原点 。 
- 安装 Mictosoft Visual Studio 集 成 开发 环境 (IDE) 。 
. 一 键 安装 CUDA 软 件 ， 包 含 CUDA Toolkit, CUDA Sample, Visual Studio 版 Nsight (IDE 插 件 ) 以 及 GPU 的 CUDA 驱 动 程序 。 


注意 ， 此 处 讨论 的 软件 版 本 都 是 针对 当前 的 最 新 版 ， 即 Microsoft Visual Studio 2013 社 区 版 、Visual Studio Nsight 4.7 版 
以 及 CUDA 7.5 版 。 


B.1.1 创建 还 原点 


在 安装 软件 之 前 ， 可 以 先 创建 一 个 系统 还 原点 ， 以 防止 意外 友 生 。 从 Windows 的 开始 菜单 中 打开 控制 面板 ， 在 其 搜索 框 
(右上 角 处 ) 中 输入 Create a restore point (创建 还 原点 ) ， 单 击 搜索 将 打开 系统 属性 窗口 的 系统 保护 页 ， 单 击 窗口 下 方 的 
Create (创建 ) 按钮 创建 系统 还 原点 。 


B.1.2 ”安装 |DE 


此 处 需要 下 载 的 软件 主要 有 CUDA Toolkit 和 Microsoft Visual Studio IDE。 由 于 CUDA Toolkit 包 含 Nsight， 这 款 软件 主要 
是 用 来 对 CUDA 代 码 进行 调试 和 分 析 ， 是 以 插件 的 方式 安装 在 Visual Studio 中 ， 因 此 ， 在 安装 CUDA Toolkit 之 前 应 先 安装 
Microsoft Visual Studio。 这 些 软 件 目前 仍 在 不 断 研发 中 ， 因 此 不 断 会 有 新 的 版 本 定期 更 新 。 此 处 ， 我 们 将 安装 目前 兼容 性 较 


好 的 版 本 组 合 : 
- Microsoft Visual Studio 2013 和 社区 版 
. CUDA 7.5， 内 附 Nsight 4.7 


读者 可 以 访问 www.visualstudio.com (或 使 用 你 最 喜欢 的 搜索 引擎 输入 “Visual Studio 2013 Community Edition” 进 行 
搜索 ) ， 按 照 具 体 提示 下 载 安装 Visual Studio。 注 意 ，Visual studio 的 安装 可 能 需要 一 点 时 间 ， 在 此 期 间 你 可 以 品 党 一 杯 或 者 
两 杯 咖 啡 。 


B.1.3 ”安装 CUDA Toolkit 


安装 好 Visual studio 之 后 ， 接 着 就 要 进入 CUDA Zone 了 。 之 所 以 叫 “CUDA Zone” ， 是 因为 这 个 名 字 是 NVIDIA CUDA 
网 址 https://developer.nvidia.comycuda-zone 的 组 成 部 分 。 在 该 网 页 中 ， 可 以 找到 所 有 关于 CUDA 的 信息 ， 包 括 相 关 工 具 和 和 痪 
源 、 入 门 材料 、 培 训 和 课程 课件 以 及 相关 (大 多 数目 前 我 们 都 能 用 到 ) 的 附属 下 载 (如 图 B.1 所 示 ) 。 
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CUDA Downloads 


Get the latest and greatest 
version of the CUDA Toolkit 
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图 B.1 CUDA Zone 提供 的 链接 


初次 访问 CUDA Zone 网 页 时 ， 直 接 将 页 面 滑动 到 底部 ， 点 击 “Developer Program” 链接 (标题 “GET INVOLVED" F 


All) ， 然 后 以 CUDA 开 发 者 身份 进行 注册 ， 这 样 才能 访问 所 有 CUDA 相 关 资 源 后 。 以 CUDA 开 发 者 身份 注册 账号 之 后 ， 回 到 
CUDA Zone 页面， Sik “CUDA DOWNLOAD’ 图 标 进 入 当前 CUDA 下 载 页 ， 如 图 B.2 所 示 。 


“@CUDA7 Downloads x \, 
€ > C |Â https://developer.nvidia.com/cuda-downloads 


Windows Linux x84 Linux POWERS Mac OSX Documentation 


Release Notes 


Version Network Installer Local Installer 
End User License Agreement 


Windows 8.1 EXE (8.0MB] EXE [939MB] 

Windows 7 Online Documentation 
Win Server 20127 RZ 

Win Server 2008 R2 


CUDA Toolkit Overview 


Checksums 
Windows Getting Started Guide 


图 B.2 CUDA Zone? CUDA 7.0 版 的 下 载 页 面 


注意 ， 图 B.2 中 显示 的 是 CUDA 7.0 版 的 下 载 页 面 ， 因 为 在 写作 本 书 时 ，CUDA 7.5 版 还 只 是 一 个 候选 版 本 ， 官 方 并 未 正式 友 
布 (读者 阅读 的 时 候 CUDA7.5 版 可 能 已 经 正式 发 布 了 ) 。 如 果 当前 有 候选 发 布 版 本 ， 只 需 在 CUDA Zone 中 搜索 ， 就 能 够 找到 候 
选 版 本 的 下 载 页 。CUDA 7.5 候 选 版 本 的 下 载 页 面 ， 如 图 B.3 所 示 。 注 意 ， 文 档 链 接 对 CUDA 的 学 习 非 常 有 帮助 ， 如 果 你 下 载 的 版 
本 有 快速 入 门 指南 ， 推 荐 你 仔细 阅读 一 下 。 


@AINVIDIA CUDA ZONE Getting Started Downloads Training Ecosystem Forums 
Q af Member Area Duane Storti = 
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图 B.3 CUDA 7.5 候 选 版 本 的 下 载 页 面 


无 论 是 下 载 CUDA 的 正式 上 友 布 版 本 还 是 候选 版 本 ， 都 需 根据 操作 系统 类 型 下 载 指定 版 本 。 下 载 时 主要 有 两 个 可 执行 文件 
(EXE) 供 选 择 ， 即 Network Installer 和 Local Installer， 根 据 你 的 实际 需要 选择 其 中 一 个 即 可 。Network Installer 的 文件 大 小 
较 小 ， 但 在 运行 该 可 执行 程序 进行 软件 安 半 过 程 中 需 连 接 到 互联 网 下 载 必 要 文件 。Local Installer 的 文件 较 大 ， 下 载 较 耗 时 ， 但 
该 可 执行 程序 在 安装 时 无 需 连 接 到 互联 网 。 


下 载 完 CUDA Toolkit 安 凌 程 序 之 后 打开 可 执行 文件 并 单 击 OK， 将 文件 解压 到 临时 文件 夹 下 并 保存 。 解 压 完 文件 之 后 CUDA 
安 丢 程序 会 目 动 司 动 ， 然 后 会 出 现 以 下 几 个 需要 操作 的 步骤 : 


1. 系 统 兼 容 性 检测 以 及 协议 许可 浏览 ， 单 击 AGREE AND CONTINUE (同意 并 继续 ) 按钮 。 


2. 选 择 快速 或 目 定 义 安 妆 方式 。 除 非 你 有 特殊 原因 需要 目 定义 安 疼 ， 一 般 情 况 下 选择 快速 安 委 ， 单 击 NEXT (下 一 步 ) 按钮 


3. 当 安装 程序 准备 安装 CUDA 对 应 的 GPU 驱动 时 ，Windows 安 装 窗口 会 弹出 询问 “Would you like to install this device 


software” “愿意 安 六 这 个 设备 软件 吗 ? " +) , Bislnstall (2%) 按钮 ， 开 始 安 装 “NVIDIA 显 示 适 配器 ”的 驱动 软件 。 
闪烁 警告 ! 
注意 ， 在 安装 驱动 的 过 程 中 显示 屏 可 能 出 现 闪 烁 ， 黄 至 出 现 几 秒 钟 完全 黑屏 的 现象 。 不 用 惊慌 ， 这 是 安装 过 程 中 的 正常 现 


Zo (此 外 ， 在 安装 软件 之 前 我 们 创建 的 系统 还 原点 也 是 为 了 防止 意外 发 生 ， 所 以 更 不 用 惊慌 。) 


NUO 


SCRE Ce LOY, KRIER ANAR ESHT, MABE RLA AME: 
- CUDA Toolkit: CUDA 基 础 软件 。 

- CUDA GPU 设备 驱动 : 该 软件 负责 告诉 支持 CUDA 计 算 的 GPU 在 CUDA 环 境 中 如 何 工 作 。 

- Nsight Visual Studio 版 : 该 软件 集成 在 IDE 中 ， 负 责 调 试 和 分 析 运 行 在 GPU 上 的 CUDA 代 码 。 

- CUDA Samples: 官方 收集 的 CUDA 示 例 程序 。 


当 安 妆 结 束 忆 后， 将 看 到 如 图 B.4 所 示 的 窗口 ， 显 示 实 际 安 疼 (MARR) 的 程序 。 


NVIDIA Installer 
NVIDIA CUDA O. 


Version 7.5 


NVIDIA 


@ system Check Nsight Visual Studio Edition Summary 

The folowing information only pertains to Nsight Visual Studio features and does 
not describe CUDA toolkit install status. Please continue unless Nsight Visual 
Studio features will be used. 


® License Agreement 


Optio | a oan Se =e ; y 
© Oe The installed version of Nsight Visual Studio Edition is newer than 
@ install the one to be installed. To reinstall, or change the Nsight 

aiii configuration, first uninstall Nsight and then reinstall. 

Finish 


For more information, please click 


图 B.4 CUDA 安 装 结束 窗口 


单 击 NEXT (下 一 步 ) , H “Launch Documentation” 与 “Launch Samples” 选项 ， 单 击 关闭 退出 安装 程序 (如 图 B.5 
所 示 ) 。 


NVIDIA Installer - 5 
NVIDIA CUDA > 


Version 7.5 NVIDIA 


@ System Check NVIDIA Installer has finished 


© License Agreement Ej Launch Documentation 


® Options Launch Samples 


BUREN 


Finish 


图 B.5 ”包含 启动 文档 和 示例 程序 的 CUDA 安 装 程 序 结束 界面 


安装 完成 之 后 ， 可 以 运行 两 个 样 例 程序 进行 测试 ， 一 个 用 来 测试 CUDA 能 否 正常 运行 ， 另 一 个 用 来 检测 系统 的 性 能 。CUDA 
Samples 中 包含 了 许多 CUDA 相 关 的 应 用 程序 ， 运 行 其 中 的 程序 束 可 以 进行 测试 。 


在 CUDA 安 装 结束 时 ， 如 果 勾 选 了 “Launch Samples” 选 项， 那么 Windows 的 资源 管理 器 会 自动 打开 CUDA Samples 所 
在 的 文件 夹 ， 如 图 B.6 所 示 。 


TEN v15 - 4a 
Home Share View ha (?) 


© >) + t L « CUDA Samples > v7.5 vė | Search v7.5 A 
高 Favorites L 0_Simple 
E Desktop J. 1_Utilities 
ip Downloads I 2 Graphics 
<> Recent places A 3. Imaging 
= ropes l, 4_Finance 
l, 5_Simulations 
ae hers l, 6_Advanced 
È Desktop | 
Ë Documents l 7_CUDALibraries 
i} Downloads bin 
B Music oe 
È Pictures log Samples_vs2010 
Ë Videos 3 Samples_vs2012 
Ss Windows (C:) Samples_vs2013.opensdf 
lS Samples_vs2013 
« Network ie Samples _vs2013 


i Samples_vs2013.v12 


$ 


16 items 1 item selected 109 KB 


图 B.6 CUDA 7.5 对 应 的 示例 程序 ， 高 亮 的 文件 为 所 有 示例 程序 的 Visual Studio 2013 解 决 方案 文件 


如 果 在 安 六 过 程 中 没有 选择 “Launch Samples” 选 项 ， 可 以 通过 以 下 方式 访问 CUDA Samples。 在 Windows 7 中 ， 打 开 
Windows 开 始 菜单 ， 依 次 选择 All Programs—NVIDIA Corporation =CUDA Samples =>V7.5=Browse CUDA Samples, 
在 Windows 8 中 ， 在 开始 页 面 底部 单 击 向 下 的 箭头 进入 应 用 页 面 ， 滑 动 窗口 找到 “NVIDIA Corporation” 项 ， 单 击 “Browse 
CUDA samples” 即 可 打开 如 图 B.6 所 示 的 文件 夹 。 这 个 文件 夹 下 包 舍 了 NVIDIA 收 集 的 所 有 与 CUDA 相 关 的 样 例 程序 代码 ， 需 要 
将 它们 编译 成 可 执行 文件 才能 运行 。 附 录 C 会 介绍 使 用 Visual Studio 编 译 可 执行 程序 的 一 些 必要 细节 ,但 此 处 ,我 们 只 需 双 击 一 
下 鼠标 然后 按 住 一 个 功能 键 束 能 将 CUDA Samples 中 的 所 有 样 例 都 编译 成 可 执行 程序 。 将 鼠标 悬 停 企 9amples_vs2013 文 件 上 ， 
然后 会 出 现 一 个 小 信息 框 ， 确 认 里 面 写 的 类 型 是 Microsoft Visual Studio Solution, WHE, Visual Studio 会 打开 这 个 文件 。 


Visual Studio 打开 Samples vs2013 文 件 乙 后， 界面 显示 如 图 B.7 所 示 。 现 在 只 需 按 下 F7 功 能 键 即 可 开始 编译 (编译 这 些 样 
例 程序 会 化 费 一 点 时 间 ， 这 会 儿 你 可 以 品尝 一 杯 咖啡 ) 。 开 始 编译 之 后 ，Visual studio 窗口 底部 会 出 现 一 个 绿色 的 进度 条 ， 编 


译 结束 之 后 会 消失 。 


04] samples vs2013 - Microsoft Visual Studio By DH | Quick Launch (Ctri+Q) P= 0 X 
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图 B.7 Visual Studio 打开 Samples_vs2013 解 决 方案 文件 的 显示 界面 


编译 结束 之 后 ， 所 有 程序 的 可 执行 文件 在 图 B.6 中 的 bin 子 文件 夹 下。 双击 bin 一 win64 一 Release， 进 入 该 文件 夹 下 可 以 看 
到 所 有 可 执行 程序 (查看 时 可 以 让 资源 管理 器 按照 类 型 对 文件 排序 ， 所 有 可 执行 程序 会 按照 字母 顺序 排列 在 一 起 ) 。 只 需 双击 即 
可 运行 指定 的 CUDA 样 例 程序 。 目 前 为 止 ， 若 想 验 证 之 前 所 有 步骤 都 正常 运行 ， 只 需 运行 deviceQuery 程 序 ， 该 程序 会 将 当前 机 
器 的 CUDA 计 算 能 力 相关 信息 输出 到 控制 台 。 如 果 我 们 双击 运行 这 个 程序 ， 其 会 将 信息 结果 输出 到 控制 台中 ， 但 控制 台 窗 口 同时 
也 会 一 闪 而 过 ， 根 本 无 法 阅读 到 任何 信息 ， 该 程序 需要 以 另外 一 种 方式 运行 : 


1. 在 Visual Studio, 7%#2TOOLS>Visual Studio Command Prompt 打 开 控 制 台 窗口 。 
2. 在 文件 资源 管理 器 中 右键 单 击 Release 文 件 夹 (bin/win64 文 件 夹 下 ) ， 在 弹出 的 菜单 中 选择 Copy address as text. 


3. 在 命令 行 中 输入 “cd” 命令 (改变 当前 工作 目录 ) ， 然 后 单 击 右键 粘贴 之 前 复制 的 CUDA Samples 可 执行 程序 的 路 径 ， 
按 回 车 进入 该 文件 夹 。 


4. 在 命令 行 中 输入 deviceQuery， 并 按 下 回 车 键 ，deviceQuery 丈 能 在 命令 行 中 运行 了 。 


deviceQuery 程 序 的 运行 结果 如 图 B.8 所 示 。 结 果 中 显示 了 可 用 的 CUDA 设 备 , RIII GPUS (GeForce 840M) 、 当 前 
CUDA 运 行 版 本 (7.5) 、 计 算 能 力 (5.0) 、 显 存 大 小 (2048MB， 即 2GB) 、 设 备 上 CUDA 计 算 核心 数目 (384) 以 及 一 些 其 他 
的 属性 信息 。 


= C:\Windows\system32\cmd.exe ro | a pss 


deviceQuery Starting... A 


CUDA Device Query (Runtime API) version (CUDART static linking) 


Detected 1 CUDA Capable device(s) 


Device 0: "GeForce 840M" 

CUDA Driver Version / Runtime Version hae yf Foo 

CUDA Capability Major/Minor version number: 5.0 oe | 

Total amount of global memory: 2048 MBytes (2147483648 bytes) 

( 3) Multiprocessors, (128) CUDA Cores/MP: 384 CUDA Cores 

GPU Max Clock rate: 1124 MHz (1.12 GHZ) 

Memory Clock rate: 900 Mhz 

Memory Bus Width: 64-bit 

L? Cache Size: 1048576 bytes 

Maximum Texture Dimension Size (x,y,z) 1D=(65536), 2D=(65536, 65536), 
3b=(4096, 4096, 4096) 

Maximum Layered 10 Texture Size, (num) layers 10=(16384), 2048 layers 

Maximum Layered 2D Texture Size, (num) layers 20=(16384, 16384), 2048 layers 

Total amount of constant memory: 65536 bytes 

Total amount of shared memory per block: 4915? bytes 

Total number of registers avai hie per block: 

Warp size: 

Maximum number of threads per multiprocessor: 

Maximum number of threads per block: 

Max dimension size of a thread block (x,y,z): (1024, 1024, 64) 

Max dimension size of a grid size (x,y,z): (2147483647, 65535, 65535) 

Maximum memory pitch: 2147483647 bytes 

Texture alignment: 512 bytes 

Concurrent copy and kernel execution: Yes with 1 copy engine(s) 

Run time limit on kernels: 

Integrated GPU sharing Host Memory: 

Support host page-locked memory mapping: 

Alignment requirement for Surfaces: 

Device has ECC support: Disabled 
CUDA Device Driver Mode (TCC or WDDM): WDDM (Windows Display Driver Mo 
e 

Device supports Unified Addressing CUVA): Yes 

Device PCI Domain ID / Bus ID / location ID: 0737/7/0 

Compute Mode: | 

< Default (multiple host threads can use ::cudaSetDevice() with device simu 

Itaneously) > 


deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 7.5, CUDA Runtime Versi 
on = 7.5, NumDevs = 1, DeviceO = GeForce 640M 
Result = PASS 


C:\ProgramData\NVIDIA Corporation\CUDA Samples\v7.5\bin\win64\Release> 


图 B.8 deviceQuery 程 序 在 命令 行 中 的 运行 结果 


如 果 你 也 能 得 到 类 似 的 结果 ， 那 么 恭喜 你 ， 你 的 计算 机 已 经 成 功 安 并 了 CUDA 程 序 。deviceQuery 只 提供 了 一 些 CUDA 计 算 
能 力 等 相关 的 信息 ， 还 有 许多 有 趣 的 示例 程序 等 待 你 去 运行 。 


到 目前 为 止 , 我 们 已 经 验证 了 CUDA 软 件 是 否 正 党 运行 (连同 支持 CUDA 计 算 的 显卡 是 否 正 常 工作 也 进行 了 验证 ) 。 现 在 读 
者 可 以 返回 阅读 第 1 草 ， 也 可 以 继续 阅读 附录 C， 来 了 解 更 多 关于 C 语 言 编程 的 必 第 知识 。 


在 一 些 其 他 的 书 中 ， 通 常 我 们 认为 Mac 运 行 的 OS X 系 统 是 Linux 操 作 系 统 的 一 种 (因为 这 两 种 平台 的 编译 方式 相同 ) ， 但 它 
们 安 沪 CUDA 的 方式 还 是 有 明显 的 区 别 。 本 书 将 介绍 如 何在 一 人 台 支 持 CUDA 计 算 的 Mac 机 器 上 运行 CUDA。 


当 验 证 了 计算 机 配备 了 支持 CUDA 计 算 的 GPU 之 后 ， 束 可 以 安 六 相关 必要 软件 了 ， 其 中 包括 Xcode 和 CUDA Toolkit, 


Xcode 是 一 套 OS X 的 官方 软件 开发 工具 ， 从 苹果 应 用 商店 即 可 免费 下 载 使 用 该 软件 。 下 载 Xcode 之 后 ， 在 命令 行 终端 窗口 
中 输入 “xcode-select--install” 安装 命令 行 工 具 ， 


Xcode 命令 行 工 具 安 装 之 后 ， 就 可 以 在 CUDA Downloads 页 面 下 载 CUDA Toolkit 安 装 程序 了 。 访 
问 https://developer.nvidia.com/cuda-downloads， 选 择 Mac OSX 选 项 (如 图 B.9 所 示 ) ， 然 后 选择 是 联网 安装 程序 或 者 本 地 
安装 程序 (联网 安装 程序 需 保 证 安装 过 程 中 网 络 连 接 畅 通 ) 。 下 载 之 后 双击 安装 程序 ， 根 据 提示 进行 CUDA Toolkit 的 安装 。 


Select Target Platform @ 


Operating System 


Architecture @ 
Version 


Installer Type @ 


图 B.9 CUDA 7.5 OSX 版 下 载 页 面 


安装 结束 之 后 ， 使 用 TextEdit 打 开 shell 配 置 文件 (对 于 bash Shell， 使 用 命令 open-e~/.bash_profile) ， 加 入 以 下 两 行 代 
码 : 


export PATH=/usr/local/cuda/bin: $PATH 
export DYLD LIBRARY PATH=/us r/local/cuda/lib: SDYLD LIBRARY PATH 


这 样 下 次 在 命令 行 中 使 用 NVIDIA 编译 器 nvcc 时 ， 系 统 路 径 中 能 直接 找到 该 程序 。 使 用 命令 nvcc-version 可 以 查看 当前 安 
装 的 nvcc 版 本 。 


至 此 ，OS X 系 统 上 的 安 委 残 告 一 段 洛 ， 接 下 来 读者 可 以 根据 下 文 继 续 下 一 步 设置 。 


B.3 ”在 Linux 下 安 季 CUDA 相 关 软 件 


CUDA Toolkit 支 持 几 种 不 同 的 Linux 发 行 版 。https://developer.nvidia.com/cuda-downloads 页 面 中 Linux 选 项 下 罗列 了 
兼容 CUDA 7.5 的 几 种 Linux 发 行 版 ， 如 图 B.10 所 示 。 本 节 将 以 Ubuntu 14.04 (LTS) 版 为 例 介 绍 安 半 步骤。 对 于 其 他 上 友 行 版 ， 
安装 步骤 大 致 相似 ， 一 些 额外 的 步骤 在 https://docs.nvidia.com/cuda/pdf/CUDA Getting Started Linux.pdf 中 也 进行 了 详细 


介绍 。 


Select Target Platform @ 


hence Sistem 


Architecture @ ppcédle 
Distribution OpenSUSE RHEL SLES 国 Steamos | Ubuntu 


图 B.10 下载 页 面 中 兼容 CUDA 7.5 的 Linux 发 行 版 


B.3.1 ”准备 CUDA 安 六 所 需 的 相关 系统 软件 


安 六 CUDA 之 前 ， 需 在 命令 行 (使 用 Ctrl+Alt+t 组 合 键 可 在 Ubuntu 中 快速 打开 命令 行 窗 口 ) 中 输入 gcc--version， 确 认 
GNU Compiler Collection (GCC) 是 否 已 安 狼 。 如 果 输 入 之 后 返回 的 结果 不 是 GCC 版 本 编号 ， 而 是 command not found 或 
者 currently not installed， 则 需 输入 sudo apt-get install gcc， 来 安装 gcc。 


B.3.2 下 载 并 安装 CUDA Toolkit 


访问 CUDA Downloads 主 页 https://developer.nvidia.com/cuda-downloads， 根 据 系统 版 本 选择 相应 Linux 选 项 ， 然 后 选 
择 联网 安 委 程序 或 者 本 地 安 委 程序 (联网 安 沪 程序 需 保 证 安 痰 过 程 中 网 络 连 接 畅 通 ) 。 单 击 链接 将 下 载 一 个 软件 库 包 。 石 键 单 击 
该 软件 包 图 标 ， 选 择 “Open with the Ubuntu Software Center”， 单 击 Install 按 钮 。 当 软件 包 安 妆 结 束 之 后， 使 用 命令 行 执 
行 以 下 步骤 : 


- 输入 sudo apt-get update 命 令 更 新 系统 版 本 库 信息 。 
- 输入 sudo apt-get install cuda 命 令 安 装 CUDA Toolkit. 


CUDA 安 凌 结 束 之 后 建议 重 局 计算 机 。 但 是 此 处 我 们 将 推迟 重启 ， 先 更 新 系统 路 径 ， 使 系统 能 定位 到 CUDA Toolkit 相 天 文 
件 。 以 下 是 一 些 必要 的 步 又 : 


` 使 用 文本 编辑 器 打开 profile 配 置 文件 (例如 gedit~/.profile) 。 
` 在 文件 的 末尾 加 入 一 行 代码 : export PATH=/usr/local/cuda/bin: $PATH， 然 后 保存 文件 。 


` 使 用 文本 编辑 器 打开 UNIX shell a OF (例如 gedit~/.bashrc) ， 在 文件 末尾 加 入 代码 : export 
LD_LIBRARY_PATH=/usr/local/cuda/lib64: $LD_LIBRARY PATH， 然后 保存 文件 。 


至 此 ， 退 出 文本 编辑 器 ， 重 局 计算 机 (使 修改 的 配置 生效 ) 。 重 局 之 后 ， 使 用 printenv|grep cuda 命 令 查看 这 些 改动 是 否 成 
功 。 如 果 系 统 能 够 成 功 定位 CUDA 文 件 ， 则 会 返回 类 似 如 下 输出 结果 : 


LD LIBRARY PATH=/usr/local/cuda/lib64: 
PATH=/usr/local/cuda/bin:/usr/local/sbin:/usr/local/bin:... 


此 外 ， 也 可 以 使 用 nvcc--version 命 令 来 确认 nvcc (NVIDIA 5 编译 器 ， 用 来 编译 CUDA 代 人 码 ) 已 正确 安 禾 是 已 包含 在 系统 路 


B.3.3 ”在 用 户 目录 下 安 委 示例 


CUDA Toolkit 中 附 审 的 示例 程序 一 般 安 丢人 在 系统 目录 下 ， 由 于 用 户 对 系统 目录 下 的 文件 没有 写 和 编辑 的 权限 ， 如 果 用 户 想 
修改 这 些 示例 程序 ， 可 以 将 所 有 示例 程序 复制 一 份 到 用 户 具 有 写 权 限 的 文件 夹 下 。CUDA Toolkit 中 有 一 个 脚本 就 可 以 做 这 件 
=, 执行 cuda-install-samples-7.5.sh~ 命 令 将 示例 程序 复制 到 ~/NVIDIA_CUDA-7.5_Samples 文 件 夹 下 。 使 用 
cd~/NVIDIA_CUDA-7.5_Samples 命 令 可 以 进入 这 份 示 例 程序 所 在 的 新 文件 夹 进 行 查 看 ， 使 用 Is 命 令 查 看 文件 夹 下 的 所 有 文 
件 。 


B.3.4 ”运行 切 始 测试 程序 


我 们 鼓励 读者 去 尝试 每 一 个 示例 程序 ， 进 入 CUDA 示 例 程序 的 文件 夹 下 ， 输 入 make 命 令 编译 这 些 程序 (注意 ,编译 可 能 花 
费 一 些 时 间 ) 。 编 译 完成 之 后 ， 运 行 deviceQuery 程 序 测试 CUDA 计 算 能 力 。deviceQuery 程 序 的 代码 在 1_Utilities 文 件 夹 下 ， 
输入 cd 1_Utilities/deviceQuery 切 换 到 这 个 文件 夹 下 ， 然 后 输入 ./deviceQuery 运 行 该 程序 。deviceQuery 程 序 的 输出 结果 将 在 
终端 窗口 中 显示 ， 对 系统 测试 的 结果 如 图 B.11 所 示 ， 我 们 可 以 看 到 计算 机 的 GPU 型 号 为 GeForce GT 650M, 计算 能 力 为 3.0， 
显存 为 512MB 显 存 ， 并 且 拥 有 384 个 CUDA 核 心 。 


eee 二 
bash- ,3 
bash-4. 33 ./deviceQuery 

./deviceQuery Starting... 


CUDA Device Query (Runtime API) version CCUDART static Linking) 
Detected 1 CUDA Capable device(s) 


Device @: "GeForce GT 650M" 
CUDA Driver Version / Runtime Version 7.5 / 7.5 
CUDA Capability Major/Minor version number: 3.0 
Total amount of global memory: 512 MBytes (530543232 bytes) 
C 2) Multiprocessors, (192) CUDA Cores/MP: 384 CUDA Cores 
GPU Max Clock rate: 900 MHz (0.90 GHz) 
Memory Clock rate: 2508 Mhz 
Memory Bus Width: 128-bit 
L2 Cache Size: 262144 bytes 
Maximum Texture Dimension Size (x,y,z) 1D=(65536), 2D=(65536, 65536), 30=(4096, 4096, 4096) 
Moximum Layered 1D Texture Size, (num) layers 1D=(16384), 2048 layers 
Maximum Layered 2D Texture Size, (num) layers 20=(16384, 16384), 2048 layers 
Total amount of constant memory: 65536 bytes 
Total amount of shared memory per block: 49152 bytes 
Total number of registers available per block: 65536 
Warp size: 32 
Maximum number of threads per multiprocessor: 2048 
Maximum number of threads per block: 1824 
Max dimension size of a thread block (x,y,z): (1024, 1024, 64) 
Max dimension size of a grid size (xyz): (2147483647, 65535, 65535) 
Maximum memory pitch: 2147483647 bytes 
Texture alignment: 517 bytes 
Concurrent copy and kernel execution: Yes with 1 copy engine(s) 
Run time Limit on kernels: Yes 
Integrated GPU sharing Host Memory: No 
Support host page-Locked memory mapping: Yes 
Alignment requirement for Surfaces: Yes 
Device has ECC support: Disabled 
Device supports Unified Addressing CUVAJ: Yes 
Device PCI Domain ID / Bus ID / location ID: @/1/ 8 
Compute Mode: 
< Defoult (multiple host threads con use ::cudoSetDevice() with device simultaneously) > 


deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 7.5, CUDA Runtime Version = 7.5, NumDevs = 1, 
Device® = GeForce GT 650M 

Result = PASS 

bash-4, 3$ || 


图 B.11 deviceQuety 示 例 程序 的 输出 结果 


通过 运行 一 个 CUDA 程 序 验 证 了 CUDA 软 件 能 够 正常 运行 (同时 也 验证 了 显卡 支持 的 CUDA 计 算 能 力 ) 。 现 在 你 可 以 返回 阅 
读 第 1 章 ， 也 可 以 继续 阅读 附录 C， 来 了 解 更 多 天 于 C 语 言 编程 的 必 备 知识 。 


1] 译 者 在 翻译 时 该 网 页 已 移 除 “Developer Program” 链接 。 译 者 注 
[2] 截至 本 书 中 文 版 出 版 时 ，CUDA Toolkit 的 下 载 已 开放 ， 无 需 注 册 。 译 者 注 


本 附录 履 兰 了 (C 语 言 编程 的 基础 知识 ， 它 们 是 进行 CUDA 编 程 的 基础 。 我 们 从 一 般 的 C 语 言 摘 述 开始 ， 然 后 介绍 创建 、 编 
译 ， 以 及 运行 C 语 言 程 序 的 过 程 。 在 这 篇 附录 的 最 后 ， 我 们 将 详细 讨论 dist_v1 和 dist_v2， 这 两 个 计算 距离 的 程序 将 作为 我 们 使 
用 CUDA 进 行 并 行 化 的 初始 示例 。 


C1 “语言 特性 


下 面 简 要 说 明 你 需要 知道 的 关于 C 语 言 编 程 的 三 个 基本 特性 : 


“ C 是 一 个 编译 语言 ， 因 此 我 们 将 按 C 语 法 编写 人 类 可 读 的 代码 (例如 代码 中 包含 我 们 熟识 的 单词 以 及 标点 符号 ) ， 并 且 我 
们 使 用 一 个 叫 作 编译 器 的 软件 (可 以 通过 命令 行 或 者 集成 开发 环境 (IDE) 启动 ) 将 人 类 可 读 的 代码 转换 成 计算 机 的 处 理 单 元 可 
以 “理解 ”并 执行 的 机 器 码 。 


上 面 天 于 编译 的 描述 是 真实 情况 的 简化 ， 但 是 关于 链接 器 、PTX 码 等 内 容 目前 还 不 是 我 们 必须 知道 的 。 (如 果 你 想 了 解 这 些 


细节 ，Mike McGrath 所 著 的 《C Programming in Easy Steps》 一 书 提供 了 简明 的 描述 册 ， 而 与 CUDA 相 关 的 特定 细节 
{E “CUDA C Programming Guide” 中 介绍 了 加。 ) 

编译 是 把 典型 的 双 刀 剑 。 它 的 好 处 是 编译 过 的 代码 非常 高 效 ， 并 且 人 允许 你 创建 的 程序 充分 利用 计算 机 的 处 理 能 力 。 坏 处 是 在 
代码 开 友 过 程 中 我 们 必须 付出 一 些 额 外 的 努力 。 每 次 编辑 过 代码 后 ， 在 运行 新 版 本 的 程序 之 前 我 们 都 得 停 下 来 重新 编译 并 检查 错 
误 。 稍 后 我 们 将 杀 目 看 看 这 些 步 又 。 (相对 于 编译 语言 ， 另 一 种 典型 的 选择 是 解释 语言 ， 它 没有 明显 的 编译 步骤 ， 但 是 通常 付出 
的 代价 是 运行 前 没有 足够 的 语法 检查 ， 并 且 运 行 时 效率 较 低 。 ) 


. C 是 一 个 类 型 化 语言 ， 因 此 我 们 每 定义 一 个 变量 都 需要 一 个 声明 语句 告诉 系统 这 个 变量 是 什么 类 型 的 。 因 为 系统 知道 每 种 


数据 类 型 需要 多 少 存储 空间 ， 所 以 类 型 声明 和 花费 一 点 努力 使 得 计算 机 在 运行 你 的 程序 时 可 以 高 效 利用 资源 的 主题 是 一 致 的 。 


. C 函 数 的 参数 是 值 传 递 的 〈 与 引用 传递 相对 ) 。 对 我 们 而 言 ， 这 在 讨论 处 理 数 组 数据 时 变 得 特别 重要 。 当 你 写 了 一 个 使 用 
数组 作为 输入 或 者 输出 的 函数 时 ， 系 统 是 否 应 该 复制 一 份 数组 (这 也 许 很 方便 ,但 是 将 大 量 占 有 有 限 的 内 存 ) 然后 执行 操作 ? C 
语言 的 作者 们 非常 重视 内 存 的 高 效 利 用 ， 所 以 选择 不 进行 复制 。 相 反 ， 他 们 决定 使 用 一 个 指针 ， 这 是 一 小 段 数据 用 来 指明 可 以 在 
系统 内 存 的 什么 位 置 找到 已 有 的 数组 。 (任何 标准 的 C 参 考 书 -，…， ?都 包含 关于 指针 和 指针 运算 的 扩展 讨论 。 我 们 将 避免 陷入 指 
ARP. ) 在 这 篇 附录 末尾 展示 的 关于 dist_v2 应 用 中 的 指针 ， 是 为 了 提供 开始 学 习 CUDA 所 需要 了 解 的 指针 的 知识 。 


有 了 这 些 简介 后 ， 让 我 们 开始 探 完 必 要 的 细 市 。 


C2 《语言 基础 


一 个 C 程 厚 包 合 一 系列 符合 标准 语法 ， 并 且 一 般 以 分 号 结尾 的 语句 。 这 种 我 们 最 单 使 用 的 语句 包括 变量 声明 、 赋 值 、 函 数 定 
义 、 立 数 调 用 以 及 运行 控制 。 每 条 语句 的 标准 语法 包括 一 个 或 多 个 保留 的 关键 字 、 标 点 符号 以 及 一 些 你 必须 保证 完 全 正确 的 括 
号 。 ( 记 住 除了 它 的 处 理 能 力 ， 你 的 计算 机 是 一 个 非常 没有 理解 能 力 的 机 器 ， 它 只 知道 你 实际 写 的 代码 ， 而 不 知道 你 为 什么 写 这 
些 代码 。 不 好 的 消息 是 有 时 你 得 将 大 量 精 力 伦 在 代码 细节 上 而 好 消息 是 你 的 开 友 环境 应 该 包含 语法 检查 工具 从 而 大 大 减轻 你 作 
为 程序 员 的 负担 。) 


说 到 语法 细 琅 ， 让 我 们 通过 说 明 一 些 一 般 规则 来 介绍 标点 、 括 号 以 及 其 他 事项 : 
圆 括 号 () 被 用 于 以 下 几 个 目的 : 


- 节 数 以 及 控制 语句 的 一 组 参数 。 


. 指明 一 个 数学 公式 中 操作 符 的 优先 级 ， 所 以 (142) *3 计 算 结 果 为 9， 而 1+ (2*3) 计算 结果 为 7。 其 实 1+2*3 的 计算 结果 


也 是 7， 因 为 乘法 比 加 法 优先 级 高 ， 但 是 往往 明确 的 处 理 这 类 情况 会 更 安全 ， 而 不 是 假设 系统 会 正确 地 判断 你 的 意图 。 
- 花 括 号 他 用 于 将 语 和 多 分 组 ， 以 及 为 数组 初始 化 提供 值 。 
: 方 括 号 [| 用 于 索引 数组 中 的 条 目 。 在 声明 数组 时 ， 方 括号 中 的 一 个 整数 指明 了 数组 中 的 元 素 个 数 。 
- 井 号 # 指 明 预 处 理 指令 。 这 些 代码 行 不 是 C 语 言 的 真正 组 成 部 分 ， 并 且 不 以 分 号 结尾 。 


- 我 们 使 用 #include 从 其 他 文件 中 引入 代码 。 例 如 ，#include 引 入 了 标准 输入 输出 头 文 件 ， 而 #include"aux_functions.h" 从 位 
于 相同 目录 下 的 aux_functions.h 文 件 中 引入 代码 。 


我 们 使 用 #define 来 简化 对 代码 中 多 次 出 现 的 常量 (并且 有 时 也 包括 函数 ) 的 管理 。 
. 基本 的 数学 运算 加 、 减 、 乘 、 除 使 用 符号 (二 ，-，*，/) 来 表示 ， 并 且 其 中 两 个 还 有 其 他 用 处 : 
: 星 号 * 也 和 指针 一 起 使 用 (我 们 将 在 后 面 介绍 ) 。 
- 斜 杠 / 也 出 现在 文件 路 径 中 ， 可 能 更 重要 的 是 用 于 注释 。 双 斜 杠 // 表 示 该 行 的 剩余 部 分 是 注释 (不 会 被 编译 器 转换 成 机 


器 语言 的 代码 部 分 ) ， 并 且 可 以 用 /# 开 头 ， 以 */ 结尾 来 写 跨越 多 行 的 注释 。 


C.3 ”数据 类 型 、 声 明 以 及 赋值 


C 语 言 包括 几 个 内 建 的 或 原生 的 数据 类 型 ， 包 括 int、float、double 以 及 char， 分 别 表示 整数 、 实 数 以 及 字符 。 需 要 注意 的 
是 我 们 讨论 的 是 数字 计算 ， 所 以 每 种 数据 类 型 都 存储 在 固定 大 小 内 存 中 ， 并 只 能 表示 有 限 的 范围 。 计 算 机 的 存储 是 二 进 制 的 ， 并 
且 基 本 的 存储 单元 是 单个 0 或 者 1 即 一 位 。 通 党 将 8 位 作为 一 组 称 为 字 节 是 很 方便 的 。 一 个 char 可 以 被 转换 成 一 个 字符 码 ， 通 常 占 
用 1 个 字 节 的 存储 空间 ， 而 一 个 int 或 者 float 通 常 占 用 4 个 字 证 (或 者 32 位 ) 存储 空间 。 这 些 大 小 是 依赖 于 具体 系统 的 (FAR 
long、short 以 及 unsigned 等 修饰 符 也 会 有 影响 ) ， 但 是 C 语 言 有 一 个 运算 符 sizeof () 来 帮 我 们 避免 天 注 这 些 细节 。 


每 次 引入 一 个 新 变量 时 ， 我 们 都 需要 指定 它 的 数据 类 型 ， 使 系统 可 以 知道 它 基本 的 属性 (尤其 是 需要 分 配 多 少 内 存 来 存储 这 


个 变量 ) 。 这 种 说 明 是 通过 具有 以 下 语法 的 声明 语句 完成 的 : 


typeName variableName; 


其 中 typeName 是 一 个 已 知 的 数据 类 型 (如 int、float 或 者 char) ， 而 variableName 是 任意 的 你 为 变量 起 的 名 字 。 选 择 变 量 
名 时 有 一 些 需 要 遵守 的 规则 : 


` 以 字母 开头 ， 而 不 是 数字 或 者 特殊 字符 。 

: 避免 使 用 保留 的 关键 字 。 (C 语 言 有 几 十 个 关键 字 ， 完 整 的 列表 可 以 在 网 上 获取 由。 ) 

. 不 要 包含 数学 运算 符 标点 符号 ， 或 者 空格 。 

下 划 线 是 允许 的 ， 并 且 在 CUDA 中 经 常 出 现 。 (我 们 将 看 到 大 量 像 h_out 和 d_out 的 名 字 。) 


可 以 混合 使 用 大 小 写 来 使 名 字 更 易 读 。C 语 言 中 的 名 字 是 大 小 写 敏感 的 ， 所 以 myname 和 myName 都 是 合法 的 并 且 是 不 同 
的 。 将 首 字 母 大 写 的 单词 组 合 起 来 是 一 种 有 用 的 命名 习惯 ， 由 于 看 起 来 像 驼峰 所 以 被 称 为 驼峰 命名 法 (camel Case) 。 


中 间 有 空格 ， 不 是 合法 的 名 字 。 


- my name 
- my_nphame 是 一 个 合法 的 替代 命名 方式 。 用 下 划 线 连接 单词 通常 被 称 为 snake_case 或 者 undef_scote。 


一 旦 我 们 声明 了 一 个 变量 ， 我 们 便 可 以 使 用 具有 以 下 语法 的 赋值 语句 将 一 个 值 与 该 变量 关联 : 


myName = myValue; 


其 中 myName 是 我 们 所 定义 的 变量 ， 而 myValue 是 一 个 具有 合适 类 型 的 值 ( 所 以 你 可 以 认为 一 个 单个 的 等 号 丈 是 赋值 操作 


BF 


付 ) 。 


例如 ， 我 们 可 以 使 用 如 下 语句 声明 一 个 叫 作 mylnt 的 整数 : 
int myint; 
并 且 使 用 如 下 语句 将 什 8 赋 给 它 : 


myint = 8 


~o 


C 语 言 不 仅 文 持 所 有 四 则 数学 运算 (加 法 、 减 法 、 乘 法 以 及 除法 ) ， 还 提供 了 方便 可 选 的 将 数学 运算 和 赋值 组 合 在 一 条 语句 
中 的 方法 ， 该 方法 被 称 为 复合 赋值 或 者 增 量 赋值 ， 例 如 ，i+ =j 和 i= (i+j) 是 相同 的 。 


C4 定义 沙 数 


C 语 言 支 持 销 数 作 为 使 用 单个 名 字 来 速记 一 组 语句 的 方式 。 尔 数 提供 了 一 种 基本 的 机 制 将 代码 组 织 成 可 测试 (提高 可 靠 性 以 
及 可 维护 性 ) 并 且 可 重用 (避免 重复 编码 ) 的 块 。 函 数 也 为 作用 域 提供 了 上 下 文 ， 这 样 我 们 可 以 创建 只 有 函数 内 可 见 的 变量 。 我 
们 将 看 到 创建 范围 限制 在 特定 浮 数 内 的 变量 的 能 力 将 有 助 于 重用 变量 名 ， 相 比 于 创建 新 的 名 字 这 的 确 减 少 了 混乱 。 


下 面 是 定义 函数 的 基本 语法 : 
returnType functionName(typeO arg0, typel argl, .., typeLast argLast) 
statementoO ; 


eee J 


statementLast ; 


我 们 可 以 创建 一 个 具有 单个 返回 值 的 消 数 (返回 值 可 以 被 赋 给 一 个 变量 ) ， 并 且 returnType 指 定 了 返回 值 的 数据 类 型 。 遂 
数 名 后 面 跟着 用 圆 括号 括 起 来 的 、 召 号 分 隔 的 、 具 有 0 个 或 者 多 个 条 目的 列表 ， 每 一 个 条 目 都 是 一 个 由 数据 类 型 (type0 等 ) 接 
着 一 个 空格 以 及 参数 名 (arg0 等 ) 组 成 的 有 类 型 的 参数 。 


注意 这 里 一 般 语法 的 定义 比较 见长 ， 所 以 建立 一 些 简 化 的 表达 方式 : 


- aftgs 是 过 号 分 隔 的 参数 列表 的 简化 〈 也 就 是 用 它 替 代 atg0，atgl ，…，ategLast) o 
- typedAtres 是 过 号 分 隔 的 有 类 型 的 参数 列表 的 简化 (也 就 是 用 它 替代 type0 argd, typel argl, ，…，typeLast argLast) 。 
statements 是 分 号 分 隔 的 语句 的 简化 (也 就 是 用 它 替代 Statemenht0 ; statementl; ++; statementLast) o 


这 样 定义 一 个 阔 数 的 语法 融 裤 简化 成 更 容易 阅读 和 记忆 的 形式 : 


returnType functionName (typedArgs) 


statements 


mFS APMIS AN, (SAT OURAN MEF, FORAIE—Mumain () 的 函数 。 因 为 所 有 (程序 都 
有 一 个 main () 函数 用 来 捐 定 从 何 处 开始 运行 ， 以 及 程序 执行 过 程 中 包含 什么 。 


C.5 ”生成 应 用 : 创建 、 编 译 、 运 行 和 调试 


下 面 让 我 们 编写 第 一 个 C 程 序 ， 它 非常 简单 。 这 个 程序 由 一 个 main () 函数 构成 ， 函 数 中 包含 声明 变量 并 给 变量 赋值 的 代 
码 ， 如 代码 清单 C.1 所 示 。 


代码 清单 C.1 declare and assign/main.cpp 


1 int main() 
2 

3 int i 

4 float x 

5 1 = 2; 

6 << =m 1,353 
7 

8 return 0; 
9 } 


注意 我 们 的 main () 阔 数 没有 参数 ， 所 以 用 于 包 合 参数 的 圆 括号 是 空 的 。 我 们 声明 了 两 个 变量 ,一 个 整数 i 以 及 一 个 单 精 浮 
所 数 Xx， 然 后 我 们 分 别 给 它们 赋值 为 2 和 1.3f。 (在 一 个 数字 后 面 加 一 个 fi 说明 这 是 一 个 浮 点 数 。) Emain () 结尾 处 ,我 们 遵循 
惯例 ， 通 过 返回 0 (Smain () 函数 的 定义 返回 一 个 整数 一 致 ) 来 表明 运行 成 功 。 


在 继续 更 复杂 (也 更 有 趣 ) 的 程序 之 前 ， 我 们 先 对 该 程序 进行 完整 的 创建 、 编 译 、 执 行 ， 以 及 调试 。 完 成 这 些 过 程 的 具体 步 
又 将 取决 于 你 的 平台 以 及 开 友 软件 ， 所 以 我 们 分 别 丈 Windows 和 Linux 系 统 提 供 说 明 。 


C.5.1 在 Windows 中 生成 应 用 程序 


现在 你 需要 使 用 开发 环境 进行 工作 了。 打开 Visual Studio 并 创建 一 个 新 工程 (或 者 在 Visual studio 的 起 始 页 选择 File 之 
New) 。 人 在 已 有 的 模板 中 选择 NVIDIA 瑟 CUDA 7.5 Runtime (如 果 它 没有 被 默认 选择 的 话 ) ， 并 输入 应 用 程序 的 名 称 。 当 你 准 
备 好 单 击 OK 来 创建 一 个 名 叫 declare_ and assign 的 新 工程 时 ，Visual Studio 的 弹出 窗口 如 图 C.1 所 示 ， 这 正 是 这 个 简单 的 应 用 
程序 要 完成 的 。 (注意 这 个 例子 里 面 只 含有 C 语 言 代 码 ， 与 CUDA 无 关 ， 但 是 我 们 将 提前 开始 进行 一 些 创建 CUDA 工 程 的 练习 。 


图 C.2 为 打开 新 工程 时 Visual studio 的 窗口 。 左 边 的 Solution Explorer 面 板 显 示 了 和 该 工程 相关 的 文件 ， 包 括 一 个 叫 
kernel.cu 的 CUDA 文 件 ， 它 被 打开 ， 其 代码 显示 在 右上 角 的 面板 中 。 
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图 C.1 在 Visual Studio 中 创建 一 个 新 的 CUDA 工 程 
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图 C.2 ”创建 了 新 工程 的 Visual Studio® 7 


一 个 新 工程 会 默认 打开 一 个 包含 将 两 个 数组 相 加 的 简单 CUDA 应 用 的 代码 。 由 于 我 们 的 应 用 中 只 有 C 语 言 代 码 而 不 包含 
CUDA 人 代码， 所 以 需 按 如 下 步骤 向 工程 中 添加 main.cpPp， 并 删除 kernel.cu : 


1. 选 择 PROJECT 之 Add New Item, 
2. 选 择 C+ +file， 并 像 图 C.3 中 一 样 输 入 名 称 name.cpp。 
3. 将 代码 清单 C.1 中 的 代码 输入 main.cpp。 


4. 通 过 右键 单 击 Solution Explorer 面 板 中 的 kernel.cu 并 选择 RemoveDelete 将 其 从 工程 中 移 除 。 


Add New Item -declare _ and assign F 
‘eel Sort by: | Default -| FE 
4 Visual C++ pe na l Type: Visual C 
[ C++ File (cpp) Visual C++ ype visual ++ 
Lil 
+ 
Code [h] Header File {h} Visual C++ 
HLSL 
Data 


| 


Search Installed Templates (Ctrl+£) P- 


Creates a file containing C++ source code 


Resource 
Web 
Utility 
Property Sheets 
Test 
b NVIDIA CUDA 7.5 
Graphics 


全 Online 


Click here to go online and find templates, 


Marne: main.opp 


Fa Ne en a Ng IO aa a RR a a AEE EP ET eT TE EIES 
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图 C.3 在 Visual Studio # 4% JA} Add New Item 窗 口 添 加 main.cpp 


输入 代码 后 ， 下 一 步 就 是 编译 和 运行 了 。 可 以 通过 选择 BUILDBuild solution 或 者 使 用 快捷 键 F7， 编 译 / 生 成 代码 。 你 应 该 养 
成 一 个 好 习惯 ， 认 真 看 一 下 Output 面板 中 出 现 的 信息 (因为 在 我 们 进行 更 认真 地 调试 时 这 些 信息 将 变 得 非常 关键 ) ， 但 是 现在 
我 们 真正 天 心 的 是 能 否 看 到 如 下 信息 : 


=== Build: 1 succeeded, 0 failed, 0 skipped === 


已 出 现在 输出 信息 的 结尾 ， 告 诉 我 们 可 执行 文件 已 经 成 功 生 成 了 。 


然后 我 们 可 以 通过 选择 DEBUG 之 Start without debugging 或 者 使 用 快捷 键 Ctrl+ F5 来 运行 该 可 执行 文件 。 运 行 这 个 应 
用 ， 发生 了 什么 ? 你 应 该 会 看 到 一 个 显示 着 Press any key to continue.… 信 息 的 控制 全 窗口 ， 并 且 按 下 任意 键 后 会 天 闭 这 个 窗 
Q. 


这 个 过 程 没 有 让 你 惊喜 的 ， 由 于 我 们 没有 包含 任何 提供 输出 的 代码 ,希望 你 也 不 要 为 没有 任何 输出 而 感到 奇怪 。 为 什么 我 们 
没有 加 上 老生 常 谈 的 向 控制 台 输 出 “Hello World” 的 语句 呢 ? 首 先 ， 这 需要 用 到 稍 后 才 讨 论 的 输入 /输出 格式 问题 。 另 一 方 
面 ， 也 许 是 更 重要 的 ,通过 向 控制 台 打 印 感 兴趣 的 东西 来 跟 踊 程 序 实际 做 了 什么 是 一 种 不 明智 的 方式 。 相 反 ， 让 我 们 立马 开始 习 
惯 于 使 用 开 及 工具。 


具体 来 况 ， 假 如 我 们 想 确 认 变 量 是 否 被 赋予 了 我 们 期 望 的 值 。 最 好 的 方法 是 在 调试 模式 下 运行 该 程 序 ， 这 要 求 代 人 码 在 调试 模 
式 下 编译 。 所 以 重新 设置 你 的 Solution Configurations， 就 像 图 C.4 中 显示 的 一 样 ， 它 位 于 HELP 菜 单 下 方 ， 将 Release 改 成 
Debug， 并 将 Solution Platforms 改 为 X64 (而 不 是 win32) 。 


当 在 Debug 模 式 下 执行 时 ， 我 们 可 以 使 用 DUBUG 之 Step Into 或 者 快捷 键 F11 按 代码 行 单 步 运行 ， 但 是 对 于 执行 完 更 长 的 
代码 来 襄 ， 每 次 单 步 运行 是 很 不 方便 的 。 
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图 C.4 ”删除 kernel.cu 后 的 Visual Studio ð n- Æ ø ET Y Solution Configurations #Solution Platforms 


更 好 的 选择 是 在 要 做 状态 检查 的 位 置 设置 断 点 。 例 如 ， 让 我 们 在 给 赋值 的 第 5 行 设置 断 点 。 一 种 方法 是 单 击 代码 面板 的 第 5 
行 ， 然 后 选择 DEBUG 之 Toggle break point,， 或 者 使 用 快捷 键 F9。 面 板 左边 绿 出 现 一 个 大 红 点 表明 断 点 的 位 置 ， 而 且 你 可 以 点 
击 那个 位 置 来 打开 或 天 闭 这 个 断 点 。 现 在 如 果 我 们 使 用 F5 开 始 调试 (并 且 打 开 断 点 ) ， 程 序 将 会 运行 到 断 点 处 ， 并 且 像 图 C.5 中 
一 样 ， 你 可 以 在 Locals 面 板 中 观察 变量 的 当前 值 。 在 这 点 你 将 看 到 和 x 的 值 ， 这 些 值 没 有 特定 意义 ， 因 为 赋值 操作 还 没有 执行 。 
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图 C.5 ”以 调试 模式 运行 declare_and_assign 到 第 5 行 


单 步 执行 (通过 按 下 F11 键 ) 一 次 后 箭头 将 移 到 第 6 行 ， 这 时 Locals 面 板 应 该 像 图 C.6 一 样 ， 其 中 j 具 有 一 个 可 识 读 的 值 ， 并 以 


红色 展示 在 Locals 面 板 中 。 
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图 C.6 在 调试 模式 下 运行 完 赋值 语句 i=2 到 达 第 6 行 


再 次 单 步 执行 ( 按 下 F11 键 ) ， 如 图 C.7 所 示 ，Locals 窗 口中 的 内 容 友 生 了 变化 。i 的 值 现在 显示 为 黑色 (只 有 最 近 语 句 的 赋 
值 显示 为 红色 ) ， 并 且 变 量 x 被 显示 为 红色 的 可 识 读 的 值 。 注 意 这 个 值 并 不 是 精确 的 1.3， 而 是 在 给 定 精度 下 二 进 制 系统 所 能 表示 
的 最 接近 的 值 。 


你 可 以 单 步 越过 最 后 一 行 ， 或 者 选择 DEBUG 之 Stop Debuging 来 结束 运行 。 现 在 我 们 完成 了 第 一 个 C 程 序 的 运行 ， 而 且 如 
果 你 使 用 Windows 系 统 ， 而 不 是 Linux/OSX 系 统 ， 那 么 你 就 可 以 直接 跳 到 C.6 节 了 。 
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图 C.7 在 调试 模式 下 执行 完 两 个 赋值 后 到 达 第 8 行 
C.5.2 ”在 Linux 中 生成 应 用 程序 


这 里 我 们 使 用 下 面 的 软件 来 看 看 在 Linux/OS X 系 统 中 创建 一 个 应 用 的 过 程 : 


` 使 用 一 个 文本 编辑 器 : 为 了 简明 起 见 ， 我 们 在 本 书 中 的 展示 使 用 Ubuntu 默认 编辑 器 gedit， 以 及 OS X 默 认 编辑 器 TextEdit。 
但 是 我 们 推荐 你 使 用 带 有 CUDA C++ 语言 包 的 Sublime Text 3， 它 在 所 有 平台 都 是 可 用 的 。 


- gmake (GNU Make) 用 于 使 编译 /链接 过 程 自动 化 。 
. nvcc (NVIDIA CUDA 编 译 器 ) 用 于 编译 源 代码 。 


- cuda-gdb (NVIDIA CUDA 调 试 器 ) 用 于 对 可 执行 文件 进行 调试 。 


在 整 本 书 中 ， 当 必要 时 ， 都 提供 了 用 于 自动 化 编译 /链接 的 Makefile 文 件 。 在 GNU 的 网 站 [7 上 可 以 获得 完整 的 GNU Make 
文档 。 


为 了 在 Linux/OS X 系 统 中 创建 declare_and_assign 应 用 ,我 们 需要 编译 代码 清单 C.1 中 的 源 代码 ， 并 且 链 接 必 要 的 库 。 在 这 
个 只 有 一 个 main.cpp 包 含 源 代码 的 简单 例子 中 ， 我 们 可 以 通过 下 面 的 命令 生成 可 执行 文件 : 


nvcc -g -G -Xcompiler -Wall main.cpp -o main.exe 


其 具体 解释 如 下 : 
. avec SYNVIDIA CUDA 编 译 器 。 
` -g(--debug 的 缩写 ) 告诉 编译 器 要 为 主机 代码 生成 调试 信息 。 
--G (--device-debug 的 缩写 ) 告诉 编译 器 要 为 设备 代码 生成 调试 信息 。 
main.cpp-o main.exe 告 诉 nvcc 以 main.cpp 为 输入 ， 并 将 输出 存储 为 main.exe。 


另外 我 们 也 可 以 创建 一 个 Makefile 文 件 来 控制 从 源 代码 生成 可 执行 文件 。Makefile 提 供 了 很 多 好 处 ， 并 且 当 工程 中 含有 多 
个 源 文件 时 变 得 尤其 重要 。 我 们 在 此 处 引入 Makefile， 并 且 将 为 我 们 的 应 用 提供 Makefile。 代 码 清单 C.2 中 给 出 了 
declare and assign 的 Makefile 文 件 。 


代码 清单 C.2 declare and assign/Makefile 


main.exe: main.cpp 
nvcc -g -G -Xcompiler -Wall main.cpp -o main.exe 


Makefile 语 法 


Makefile 中 包含 一 些 变 量 赋值 和 规则 。 例 如 NVCC=V/ust/local/cuda/bin/nvcc， 变 量 赋值 看 起 来 和 C 语 言 赋值 相似 (没有 分 号 结 
Æ) ， 并 且 允 许 你 在 Makefile 的 剩余 部 分 使 用 NVCC 来 作为 完整 路 径 的 缩写 。 一 个 规则 包含 三 个 部 分 : 目标 、 依 赖 以 及 命令 。 一 
个 规则 的 第 一 行 包含 目标 ( 紧 接着 一 个 冒号 ) 和 依赖 。 规 则 的 其 余 行 是 一 系列 命令 ， 每 行 开头 都 是 以 TAB 缩 进 的 。 (为 了 避免 出 


现 问 题 ， 必 须 以 TAB 缩 进 ， 而 不 是 空格 。) 
代码 清单 C.3 给 出 了 一 个 等 价 的 缩写 版 本 的 Makefile。 


代码 清单 C.3 ”缩写 版 的 declare and assign/Makefile 


NVCC = /usr/local/cuda/bin/nvcc 
NVCC FLAGS = -g -G -Xcompiler -Wall 


main.exe: main.cpp 
S(NVCC) $(NVCC_FLAGS) $< -o $@ 


生成 过 程 中 的 文件 


从 源 代码 生成 可 执行 应 用 过 程 的 详细 讨论 对 于 我 们 学 习 CUDA 来 说 并 不 是 非常 重要 ,但 是 这 里 为 感 兴趣 的 人 提供 了 一 个 简明 
的 总 结 。 对 于 我 们 所 写 的 高 级 语言 源 文 件 ， 其 中 .cpp 后 级 文件 中 为 C/C++ 代码 ，.cu 后 级 文件 中 含有 CUDA 代 码 ，.h 或 者 .cuh 是 头 
文件 。 预 处 理 程 序 处 理 完 预 处 理 命令 后 生成 另 一 个 版 本 的 C/C++/CUDA 人 代码。 编译 器 生成 汇编 代码 ， 之 后 汇编 器 将 汇编 代码 转 
换 成 机 器 码 ， 并 存 入 以 .0 为 后 级 的 目标 文件 中 。 最 后 链接 器 将 所 有 目标 文件 链接 到 一 起 生成 可 执行 文件 。 


有 了 代码 和 Makefile 后 ， 我 们 就 可 以 创建 可 执行 应 用 了 。 通 过 如 下 步骤 创建 declare and assign 应 用 : 
1. 创 建 一 个 projects 目 录 来 存放 所 有 的 工程 。 在 终端 上 使 用 cd 命令 进入 projects 目 录 。 
2. 使 用 mk declare_and_assign 命 令 为 该 工程 创建 一 个 目录 ， 然 后 使 用 cd declare_and_assign 进 入 该 目录 。 


3. 使 用 gedit main.cpp 命 令 创建 main.cpp 文 件 (对 于 OS X， 首 先 使 用 命令 touch main.cpp， 然 后 使 用 open-e 


main.cpp) 。 
4. 将 代码 清单 C.1 中 的 内 容 输 入 main.cpp。 
5. 通 过 gedit Makefile 创 建 Makefile (同样 的 在 OS X 中 ， 首 先 touch Makefile， 然 后 open-e Makefile) 。 
6. 将 代码 清单 C.2 中 的 内 容 输入 Makefile。 
7. 通 过 敲 入 命令 make 来 编译 源 文件 。 
现在 可 执行 文件 已 经 准备 好 了 ， 如 图 C.8 所 示 ， 通 过 如 下 步骤 使 用 调试 器 运行 应 用 并 检查 绪 
1. 通 过 cuda-gdb main.exe 命 令 将 可 执行 文件 加 载 到 调试 器 中 。 


2. 使 用 start 命 令 开始 调试 ， 并 使 用 info locals 命 令 显示 局 部 变量 。 第 一 步 运 行 到 第 5 行 (第 一 条 执行 语句 ) ， 第 一 个 info 
locals 显 示 i 和 x， 它 们 还 没有 被 初始 化 成 期 望 的 值 。 


3. 使 用 next 运 行 到 下 一 条 揭 令 ， 并 且 再 次 检查 局 部 变量 。 我 们 现在 在 第 6 行 ，info locals 告 诉 我 们 ij 已 经 被 设置 成 2， 而 x 仍 然 
未 定义 。 


4. 重 复 上 述 步 又 运行 到 第 8 行 ， 我 们 观察 到 info locals 现 在 同时 显示 了 i 和 x 所 赋 的 值 。 注 意 这 里 x 并 不 恰好 是 1.3， 而 是 在 给 定 
精确 度 的 二 进 制 系统 中 最 可 能 的 近似 值 。 


5. 最 后 使 用 continue 运 行 该 应 用 程序 ， 并 通过 quit 退 出 调试 器 。 


NVIDIA (R) CUDA Debugger 
7.5 release 

Portions Copyright CC) 2007-2015 NVIDIA Corporation 

GNU gdb (GDB) 7.6.2 

Copyright (C) 2013 Free Software Foundation, Inc. 

License GPLv3+: GNU GPL version 3 or later <http://gnu.org/Licenses/gpl .html> 
This is free software: you are free to change and redistribute it. 

There 15 NO WARRANTY, to the extent permitted by law. Type “show copying” 

and “show warranty" for details. 

This GDB was configured as "x86_64-appLe-darwinl3.4.6". 

For bug reporting instructions, please see: 

http://w. gnu.org/software/gdb/bugs/>. . . 

Reading symbols from /Users/myurtogLu/projects/decLare_and_assign/main.exe...done. 
(cuda-gdb) start 

Temporary breakpoint 1 at @x100031785: file main.cpp, Line 5. 

Starting program: /Users/myurtoglu/projects/declare_ond_assign/main, exe 


Temporary breakpoint 1, main () at moin.cpp:5 
5 i = 25 

(cuda-gdb) info locals 

i = 1606422582 

x = 4,59163468e-41 

(cuda-gdb) next 

6 x = 1.3f: 

Ccuda-gdb) info locals 

İ = Žž 

x = 4,59163468e-41 

(cuda-gdb) next 
8 return ð: 

(cuda-gdb) info locals 

Lex? 

xX = 1, 29999995 

(cuda-gdb) continue 

Continuing. 

[Inferior 1 (process 59907) exited normally] 
Ccuda-gdb) quiti 


图 C.8 ”调试 declafe_and_assign 过 程 中 的 cuda-gdb 命 令 以 及 结果 


我 们 已 经 完成 了 第 一 个 C 应 用 的 程序 运行 ， 接 下 来 将 继续 讨论 其 他 重要 的 C 语 言 概念 。 


到 现在 为 止 我 们 已 经 创建 、 编 译 、 执 行 并 调试 了 一 个 简单 的 C 语 言 程序 ， 所 以 是 时 候 逐 渐 增 加 一 些 我 们 所 需 的 其 他 C 语 言 元 
素 了 。 首 先 讨论 的 是 数组 以 及 包括 for 循 环 在 内 的 控制 语句 。 


你 可 以 使 用 数组 来 存储 多 个 特定 类 型 的 元 素 ， 它 是 一 个 给 定 类 型 的 变量 的 索引 序列 。 在 本 附录 末尾 的 dist_v1 和 dist_v2 应 用 
程序 提供 了 这 样 的 例子 ， 其 中 我 们 将 输入 值 和 /或 输出 值 存在 数组 中 。 


具体 来 讲 ， 考 虑 一 组 整数 输入 值 以 及 一 组 浮 后 输出 值 。 与 普通 变量 相同 ,一 个 数组 的 名 字 是 通过 声明 语句 来 建立 的 ， 这 和 | 变 
量 声明 很 像 ， 唯 一 的 区 别 是 需要 在 名 字 后 面 加 上 方 括号 来 表明 这 是 一 个 数组 。 在 声明 中 ， 方 括号 内 的 弟 数 表明 数组 的 长 度 。 人 在 其 
他 语句 中 ， 方 括号 内 的 整数 表明 一 个 元 素 在 数组 中 的 索引 。 


这 里 让 我 们 创建 一 个 名 为 in 的 输入 数组 。 我 们 可 以 声明 一 个 数组 in 来 存储 3 个 整数 ， 以 及 一 个 数组 out 来 存储 3 个 浮 点 数 : 


int in[3]; 
Float out[3]; 


天 于 数组 声明 有 几 个 很 重要 的 事项 需要 注意 : 


- 编译 时 方 括号 中 的 值 必 须 是 第 量 ， 因 为 只 能 为 国定 数量 的 元 素 分 配 内 存 。 在 C 语 言 中 是 不 支持 动态 改变 数组 大 小 的 。 通 各 


元 内 
采用 宏 定义 指令 来 处 理 这 一 情况 ， 如 下 示例 代码 所 示 (其 中 还 包含 单行 及 多 行 注释 的 示例 ) : 


#define N 3 //Compiler directive has no semicolon. 
/* The lines below declare 2 arrays. 
Each array has length N. */ 
int in[N] ; 
float out[N]; 


- 回想 C 语 言 中 的 索引 策略 是 从 0 开始 计数 ， 所 以 这 里 数组 中 的 元 素 是 in[0]、in[1] 以 及 in[2]。 


与 简单 变量 一 样 ， 你 可 以 在 声明 的 同时 赋 初 值 。 例 如 ，intin 上 ={1，2，3}; 声明 了 具有 3 个 元 素 的 数组 (这 里 方 括号 里 面 
可 以 是 空 的 ， 因 为 数组 长 度 可 以 从 初始 值 列 表 推 出 ) 并 赋 初 值 ， 等 价 于 in[0]=1; in[1]=2; in[2]=3; o 


“ 到 目前 为 止 我 们 对 数组 的 描述 都 有 点 大 而 化 之 。 我 们 还 没有 提 到 使 用 int]={1，2，3}; 进行 声明 与 创建 3 个 整 型 变量 并 分 
别 按 顺序 典 上 花 括 号 内 的 值 有 什么 区 别 。 事 实 上 ， 我 们 声明 的 数组 名 是 一 个 指向 一 定 大 小 【等 于 元 素数 量 乘 以 每 个 元 素 的 字 节 
数 ; 这 里 是 N*sizeof (int) ) 的 连续 内 存 块 中 第 一 个 元 素 的 指针 。 元 素 编号 (包含 在 方 括号 中 ) 告诉 系统 要 找到 数组 中 的 指定 元 
“需要 在 内 存 空间 中 跨 过 多 少 步 固定 的 大 小 (例如 存储 每 个 指定 类 型 的 元 素 需 要 的 字 节 数 ) 。 实 际 上 我 们 是 故意 不 关注 这 一 点 ， 
因为 这 一 特性 目前 还 不 重要 。 我 们 将 在 后 面 使 用 数组 作为 输入 输出 的 函数 示例 代码 中 明确 处 理 指针 ， 并 查看 必要 的 细节 ， 并 且 本 


书 第 2 章 中 会 讨论 在 设备 (GPU) 端 创建 数组 时 包含 显 式 的 内 存 分 配 。 


` 不 要 尝试 一 下 子 给 整个 数组 赋值 。 的 确 ， 你 可 以 创建 另 一 个 大 小 为 3 的 整 型 数组 int inCopy[3]; 但 是 inCopy=in 不 会 将 in 中 所 
有 相应 的 元 素 赋值 给 新 数组 inCopy， 而 是 会 产生 一 条 错误 信息 ， 因 为 C 语 言 不 能 这 样 工 作 。 这 样 的 赋值 只 能 一 次 一 个 元 素 的 完 


成 ， 这 完美 地 将 我 们 引入 对 控制 语句 的 简要 讨论 。 


C.7 ”控制 语句 : for, if 


控制 语句 允许 你 指定 某 部 分 的 代码 将 会 (或 者 不 会 ) 执行 的 情形 。 在 C 语 言 中 ， 你 需要 知道 如 何 使 用 控制 语句 ， 但 是 现在 我 
们 仅仅 关注 for 循 环 和 if 语句 。 


C.7.1 _ for 循环 


for 循 环 是 典型 的 趾 行 程序 结构 ， 因 为 它 包含 一 个 明确 定义 的 循环 或 者 循环 系 引 变量 。 循 环 内 的 代码 根据 循环 率 引 值 一 次 接 
一 次 地 重复 执行 直到 满足 退出 条 件 。 注 意 for 循 环 在 我 们 的 走向 CUDA 并 行 计 算 的 旅行 路 线 上 扮演 着 关键 作用 ， 因 为 我 们 最 开始 
的 并 行 化 残 是 对 串 行 for 循 环 的 转换 。 


for 循 环 的 语法 形式 如 下 所 示 : 


for (start; test; increment) 


statements 


其 中 start 通 常 是 一 个 声明 循环 索引 变量 并 给 它 赋 初 值 的 语句 ，test 是 一 个 指定 退出 条 件 的 语句 ， 而 increment 是 一 个 说 明 每 
执行 一 次 循环 体 后 如 何 改变 循环 索引 值 的 语句 。 论 括号 内 包含 了 每 次 循环 体内 需要 执行 的 语句 序列 。 


作为 例子 ， 让 我 们 解决 前 面 提 到 的 将 一 个 数组 ( 称 为 in) 中 的 元 素 复制 到 另 一 个 数组 ( 称 为 inCopy) 中 的 问题 。 示 例 代 码 
如 下 : 


#define N 3 
int main() 


int in[] = {1,2,3} 
int inCopy [N]; 


~oe 


for (int 1=0; 1 < N; +41) 


| 


inCopy[i] = in[i]; 


return o0; 


一 开始 我 们 使 用 一 条 编译 指令 #define 将 符号 N 蔡 换 成 数字 3 (作为 数组 长 度 常量 ) ， 然 后 是 必 不 可 少 的 main () AR. R 
前 面 一 样 ， 我 们 声明 in 并 为 它 赋 初 值 1 至 3。 声 明了 一 个 长 度 为 3 的 整 型 数组 ihCopy， 紧 接着 是 按 上 述 语法 所 描述 的 一 个 for 循 
环 。 循 环 索 引 是 一 个 名 为 的 初始 值 为 0 的 int 型 变量 。 (注意 i 的 作用 域 限制 在 这 个 循环 内 。 这 个 循环 外 的 相同 符号 表示 一 个 不 同 
的 变量 ， 所 以 不 需要 为 每 一 个 循环 的 循环 索引 起 一 个 新 名 字 。) 循环 继续 执行 直到 i 不 再 小 于 N (N 被 蔡 换 成 3) ， 而 ++i 在 每 执 
行 一 次 循环 体 后 将 i 的 值 加 1。 由 于 每 次 循环 都 将 in 中 的 第 i 个 元 素 复制 到 inCopy 中 相应 的 位 置 ， 并 且 i 初 始 化 为 0， 所 以 第 一 次 循 
环 将 in[0] 中 存储 的 值 1 赋 给 inCopy[0]。 ;的 值 从 0 增加 到 1， 然 后 回 到 循环 项 部。 因为 此 时 i 的 值 为 1 (NN 已 经 被 替换 成 3) ， 人 循环 条 
件 i < N 满 足 ， 所 以 进行 第 二 次 循环 ， 将 in[1] 中 的 值 2 赋 给 inCopy[1]。 这 个 过 程 继 续 (为 元 素 赋值 直到 并 包括 inCopy[2]) 直到 ji 增 
加 到 3， 此 时 继续 循环 测试 失败 ， 退 出 循环 。 继 续 执 行 到 main () 的 最 后 一 行 ， 返 回 整数 0 表明 执行 完成 。 


如 前 所 述 ，C 语 言 数 组 的 泰 引 是 从 0 开始 的 ， 这 是 一 个 普遍 的 编程 常识 。 为 了 执行 一 些 需要 数组 中 每 一 个 元 素 (作为 输入 或 


者 输出 ) 的 代码 ， 需 要 使 用 一 个 这 引 初 始 为 0， 并 且 在 每 次 达 代 中 增加 并 测试 小 于 元 素数 目的 循环 (因为 一 个 长 度 为 N 的 数组 的 
RIHO, 1, .., N-1) 。 注 意 一 些 语言 使 用 其 他 的 索引 策略 ,但 是 对 于 C 语 言 代码 ， 我 们 应 习惯 从 0 开始 计数 。 


最 后 需要 注意 的 是 我 们 目前 所 摘 述 的 数组 还 是 很 形象 的 ， 而 且 并 没有 真正 涉及 指针 。 我 们 将 在 后 面 的 示例 程序 中 扩展 这 一 


点 ， 在 那里 我 们 将 构造 一 个 输入 和 输出 都 仓储 在 数组 中 的 函数 。 
C.7.2 MES 


天 键 字 if 允 许 你 指定 一 段 只 有 在 测试 条 件 满足 时 才 会 执行 的 代码 。 测 试 条 件 包括 相等 (==) 、 不 等 (! =) 、 大 于 (>) 、 
小 于 (<) 、 大 于 等 于 (>=) 以 及 小 于 等 于 (<=) 。 可 以 通过 人 逻辑 运算 符 “ 与 。 ( 记 作 &&) 、“ 或 。【( 记 作 上 |) 以 及 取 反 又 称 
为 “ 非 ” GAF! ) 来 组 合 多 个 条 件 。C 语 言 用 0 表示 FALSE， 所 以 (a>b) 实际 是 ( (a>b) ! =0) 的 绾 写 ， 表 示 判 断 a> b 不 


是 FALSE 是 否 成 立 。 


标准 的 语法 如 下 : 


1£ (condition) 


statements 


当 条 件 不 满足 时 ， 你 也 可 以 编写 else 语 句 提供 其 他 可 选 的 语句 来 执行 。 标 准 的 语法 如 下 : 


1£ (condition) 


statements 


| 


else 1£ (condition) 


statements 
else 
statements 


这 为 在 不 同 条 件 下 执行 不 同 语句 的 计算 提供 了 可 能 。 作 为 一 个 实例 ， 假 设 我 们 声明 了 一 个 整数 n， 并 给 n 赋 了 一 个 值 ， 并 且 
我 们 想 给 y 赋 一 个 调整 后 的 x 值 〈( 例 如， 如 果 x>0 则 y=x， 如 果 x<=0 则 y=0) 。 下 面 使 用 if-else 句 来 完成 这 一 工作 : 


1f (x > 0) 


\ 


Y = X; 


与 if 语 句 相关 的 其 他 知识 点 : 


a 
ols 
ay 
EN 
val 
Sy 
He 
> 
ols 


- 花 括 号 内 的 语句 用 分 号 结束 ， 但 是 


. 有 多 种 表达 方式 可 以 达到 同样 效果 ， 并 且 你 可 以 看 到 这 种 结构 的 其 他 备 选 方案 也 是 非常 方便 的 (而且 仍然 具有 可 读 性 ) ， 
特别 是 当 花 括号 中 只 有 一 条 或 者 两 条 语 自 时 。 给 y 赋 上 调整 后 的 x 的 值 的 代码 可 以 写 得 更 紧凑 : 


1f (x > 0) y = x; else y = 0; 


或 者 使 用 三 元 运算 符 ， 例 如 : 


但 是 我 们 友 现 使 用 花 括号 以 及 缩 进 可 以 使 代码 更 加 具有 可 读 性 。 ( 稍 后 我 们 将 看 到 用 一 开始 所 示 的 格式 使 用 花 括号 以 及 缩 进 
来 编写 代码 对 调试 工具 来 说 是 最 好 的 。) 找到 适合 你 的 风格 并 坚持 下 去 。 


C.7.3 其 他 控制 语 名 


结合 了 一 个 条 件 测试 并 重复 (或 循环 ) 评估 的 控制 语句 由 关键 字 while 和 do 完成 。 你 可 以 通过 continue 跳 过 一 个 循环 索引 值 
的 执行 ， 或 者 通过 break 或 goto 完 全 离开 循环 。 通 过 switch 语 句 加 上 多 个 case 值 可 以 指定 一 个 根据 一 个 表达 式 的 值 决定 的 多 条 不 
同 的 执行 路 径 ， 其 中 还 可 以 包含 一 个 default 路 径 。 请 查看 标准 C 语 言 教材 来 获取 详细 信息 中 1。 


C.8 示例 CC 程序 


现在 我 们 可 以 在 我 们 通 往 CUDA 旅 程 上 构建 第 一 个 应 用 程序 了 。 这 个 应 用 程序 计算 一 个 参照 点 与 N 个 0 至 1 区 间 内 等 距 分 布 的 
点 的 距离 。 这 里 我 们 构建 两 个 版 本 ， 分 别 为 dist_ vildist v2， 这 也 在 第 1 章 中 出 现 ， 并 作为 我 们 后 继 转换 成 并 行 CUDA 应 用 的 初 


人 示例。 
这 两 个 距离 应 用 程序 会 产生 相同 的 输出 ， 但 是 它们 的 结构 是 不 同 的 : 
1.dist_v1 使 用 一 个 for 循 环 来 调用 一 个 计算 单个 输入 的 距离 的 冰 数 。 这 个 版 本 为 初始 并 行 化 提供 了 最 简单 的 素材 。 


2.dist_v2 有 更 多 的 结构 。 输 入 数据 存储 在 一 个 数组 中 ， 并 且 for 循 环 被 移 到 了 一 个 叫 作 distanceArray() 的 函数 中 ， 它 被 调 
用 一 次 计算 并 存储 所 有 输出 距离 值 。 对 dist_v2 进 行 并 行 化 工作 量 更 大 ， 但 是 它 为 使 用 CUDA 进 行 并 行 化 提供 了 更 好 的 结构 。 


C.8.1 dist v1 


dist_v1 的 代码 显示 在 代码 清单 C.4 中 。 


代码 清单 C.4 dist v1/main.cpp 


1 #include <math.h> //Include standard math library containing sqrt. 
2 #define N 64 // Specify a constant value for array length. 
3 

4 // A scaling function to convert integers 0,1,...,N-1 

5 // to evenly spaced floats ranging from 0 to 1. 

6 float scale(int i, int n) 

7 4 

8 return ((float)i) / (n - 1); 

9 j 

10 

11 // Compute the distance between 2 points on a line. 

12 float distance(float x1, float x2) 

13 { 

14 return sqrt((x2 - x1)*(x2 - x1)); 

15 } 

16 

17 int main() 

18 { 

19 // Create an array of N floats (initialized to 0.0). 

20 // We will overwrite these values to store our results. 
21 float out [N] = {0.0f}; 
22 
23 // Choose a reference value from which distances are measured. 
24 Const £ioat ret = 0,5: 
25 
26 /* for loop to scale the index to obtain coordinate value, 
27 * compute the distance from the reference point, 
28 * and store the result in the corresponding entry in out. */ 
29 for (int i = 0; i < N; ++i) 

30 { 

31 float x = scale(i, N); 

32 out[i] = distance(x, ref); 

33 } 

34 

35 // It is conventional for main() to return zero 

36 // to indicate that the code ran to completion. 

37 return 0; 

38 } 


上 面 的 代码 用 于 计算 一 个 参照 点 ref 到 一 系列 x 的 距离 值 的 输出 数组 ( 称 为 out， 长 度 N = 64) ，x 是 通过 缩放 循环 率 引 i 在 0.0 
到 1.0 泡 围 内 得 到 的 均匀 分 布 的 点 。 我 们 首先 包含 标准 数学 库 头 文件 (这样 我 们 融 可 以 使 用 开 方 函数 sqrt () ) ， 然 后 定义 一 个 
常量 N (设置 为 64) 作为 点 的 数量 以 及 输出 数组 的 长 度 。 第 6~9 行 定义 的 第 一 个 国 数 scale () 将 0，...，N-1 范 围 内 的 整数 转换 
为 0.0 至 1.0 区 间 内 的 一 个 浮 点 型 坐标 ， 而 定义 在 第 12~ 15 行 的 函数 distance () 计算 两 点 之 间 的 直线 距离 。 


main () 函数 首先 企 第 21 行 创建 了 一 个 长 度 为 N 的 浮 点 型 数组 ， 并 急 始 化 为 0.0 (将 会 被 重 写 来 存储 我 们 的 输出 ) ， 并 且 在 
第 24 行 设置 用 于 计算 距离 的 参照 点 ref = 0.5f。 从 第 29 行 开始 是 for 循 环 ， 第 31 行 对 每 一 个 循环 索引 (从 0 到 N-1) 都 计算 一 个 对 
应 的 缩放 位 置 并 仔 在 x 中 ， 然 后 在 第 32 行 计算 与 参照 点 之 间 的 距离 并 仓储 在 out[ 中 。 当 i 增 加 到 N， 计 算 退 出 for 循 环 ， 并 且 
main () 返回 0 表示 代码 已 经 执行 完成 。 


用 如 下 方法 将 代码 清单 C.4 中 的 代码 转换 成 可 执行 应 用 : 
在 Windows 中 : 
1. 打 开 Visual Studio 并 创建 一 个 叫 作 dist_v1 的 新 工程 。 


2. 添 加 main.cpp 到 工程 中 : 选择 PROJECT 沪 Add New ltem， 然 后 选择 C+ + 文件 ， 输 入 名 称 main.cpp， 单 击 Add。 后 


缀 .cpp 表 示 C++ 并 表示 它 的 内 容 要 作为 C/C++ 代码 来 编译 。 而 .cu 文件 包含 的 则 是 CUDA 代 码 ， 并 且 需 要 使 用 nvcc 来 编译 。 
3. 将 代码 清单 C.4 中 的 代码 录入 main.cpp。 
4. 在 Solution Explorer 面 板 中 右键 单 击 .cu 内 核 文 件 图 标 并 选择 Remove 将 其 从 工程 中 移 除 。 
5. 设 置 编译 选项 为 Debug 和 x64， 然 后 选择 BUILD 之 Build solution 或 者 按 F7 键 。 
6. 在 第 37 行 设置 一 个 断 点 ， 调 试 并 检查 结果 。 
. 在 Linux 中 : 
1. 创 建 一 个 dist_v1 目 录 。 
2. 创 建 一 个 新 文件 main.cpp。 将 代码 清单 C.4 中 的 代码 录入 main.cpp 并 保存 这 个 文件 。 
3. 创 建 Makefile 并 录入 代码 清单 C.2 中 的 内 容 。 
4. 通 过 在 控制 台中 输入 make 来 编译 源 文 件 。 
5. 使 用 cuda-gdb main.exe 命 令 将 可 执行 文件 加 载 进 调试 器 中 。 
6. 使 用 命令 break main.cpp: 37 在 第 37 行 设置 一 个 断 点 。 
7. 通 过 run 开 始 调试 并 检查 结果 。 


使 用 调试 工具 检查 结果 ， 过 程 和 你 在 declare_and_assign 中 做 得 差不多 ， 但 是 你 需要 检查 和 存储 在 数组 out 中 的 值 。 在 Linux 
中 这 没什么 变化 ，info locals 或 者 print out 会 将 数组 out 中 的 所 有 元 素 友 送 到 终端 上 。 在 Visual Studio 的 Locals 面 板 中 ，out 所 
在 行 的 左 侧 将 会 有 一 个 小 三 角形 ， 如 图 C.9 所 示 。 点 击 这 个 小 三 角形 将 打开 一 个 可 滚动 的 列表 显示 所 有 人 存储 在 out 中 的 元 素 。 


不 管 怎样 ， 当 你 查看 结果 ， 将 看 到 值 从 0.5 开 始 (缩放 值 0 到 参照 点 0.5 的 距离 ) ， 逐 渐 下 降 ， 数 组 中 间接 近 0， 然 后 又 增加 回 
0.5 〈 从 0.5 到 缩放 值 1.0 的 距离 ) 。 
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C.8.2 dist v2 


在 第 二 个 版 本 的 距离 应 用 中 ， 我 们 创建 了 一 个 数组 存储 所 有 的 输入 坐标 值 以 及 一 个 国 数 计算 整个 输入 数组 的 所 有 距离 值 。 第 
一 个 版 本 dist_v1 不 是 很 具有 代表 性 ， 因 为 没有 实际 输入 数据 (除了 参照 点 ) 。 现 在 我 们 来 做 一 些 更 典型 的 例子 并 处 理 一 组 输入 
数据 从 而 得 到 一 组 输出 数据 。 (这 里 输入 数据 通过 一 个 初始 for 循 环 来 创建 ， 但 是 该 基本 流程 将 同样 适用 于 从 一 个 文件 或 者 输入 
设备 读 取 输入 数据 。) 我 们 将 所 有 上 逆 数 (除了 main () ) 放 到 一 个 单独 的 文件 aux_functions.cpp 中 从 而 增加 了 一 点 结构 性 ， 并 
且 创 建 了 一 个 对 应 的 头 文件 aux_functions.h 用 于 包含 必要 原型 声明 。 


下 面 开 始 介 绍 dist v2 的 代码 。main.cpp、aux functions.h 以 及 aux functions.cpp 的 代码 ， 如 代码 清单 C.5 至 C.7 所 示 。 


代码 清单 C.5 dist v2/main.cpp 


1 #include "aux functions.h" 
2 #define N 64 // Specify a constant value for array length. 
3 
4 int main() 
E 
6 // Create 2 arrays of N floats (initialized to 0.0). 
7 // We will overwrite these values to store inputs and outputs. 
8 float in[N] = {0.0f}; 
9 float out[N] = {0.0f}; 
10 
11 // Choose a reference value from which distances are measured. 
12 const float ref = 0.5f; 
13 
14 // Iteration loop computes array of scaled input values. 
15 for (int i = 0; i < N; ++i) 
16 { 
17 in[i] = scale(i, N); 
18 } 
19 
20 // Single function call to compute entire distance array. 
21 distanceArray (out, in, ref, N); 
22 
23 return 0; 
24 } 


main () 函数 中 的 代码 与 代码 清单 C.4 中 显示 的 dist v1/main.cpp 相 比 只 有 少量 修改 。 除 了 用 于 存储 输出 距离 的 数组 out 
外 ， 还 有 一 个 数组 in 用 于 仓储 缩放 的 输入 值 ， 并 且 for 循 环 (原来 计算 缩放 输入 值 并 计算 /存储 距离 值 ) 的 工作 被 分 成 两 部 分 。 现 
在 for 循 环 仅仅 计算 并 存储 缩放 输入 值 。 计 算 并 仓储 距离 值 的 任务 被 归 入 了 distanceArray () 。 


注意 main () AAFAA T scale () 以 及 distanceArray () ， 但 是 它们 的 定义 都 没有 出 现 。 我 们 已 经 说 过 人 在 函数 调用 之 
前 编译 器 人 至少 得 知道 函数 声明 或 者 原型 ， 这 一 依赖 性 通过 头 文件 得 到 满足 。 在 这 个 例子 中 ， 我 们 将 辅助 函数 scale () 和 
distanceArray () 定义 在 一 个 名 叫 aux_functions.cpp 的 单独 文件 里 。 然 后 我 们 将 main () 可 调用 的 每 个 辅助 函数 的 原型 添加 
到 aux _ functions.h 文 件 中 ， 并 且 在 main.cpp 代 码 顶 部 包含 aux functions.h， 这 样 编译 器 残 可 以 获得 所 有 必要 的 信息 了 。 


代码 清单 C.6 显 示 了 完整 的 头 文件 。 头 文件 主要 包含 遂 数 原型 以 及 解释 性 的 注释 。 除 了 函数 原型 ， 还 有 三 条 编译 器 指令 构成 
包含 保护 (或 者 头 文件 保护 ) ,这 用 于 防止 试图 多 次 包含 原型 而 引起 的 编译 错误 。 


代码 清单 C.6 dist v2/aux functions.h 


1 #ifndef AUX FUNCTIONS H 

2 #define AUX FUNCTIONS H 

3 

4 // Function to scale input on interval [0,1] 

5 float scale(int i, int n); 

6 // Compute the distance between 2 points on a line. 

7 float distance(float x1, float x2); 

8 // Compute scaled distance for an array of input values. 
9 void distanceArray(float *out, float *in, float ref, int n); 
10 

11 #endif 


aux_functions.cpp 的 代码 显示 在 代码 清单 C.7 中 。scale () 和 distance () 函数 和 dist_v1 中 的 一 样 。 有 趣 的 是 增加 了 
distanceArray () ， 这 个 函数 获取 一 个 输入 数组 (同时 还 有 一 个 参照 点 和 数组 长 度 ) 并 产生 一 个 输出 数组 。 这 是 我 们 第 一 次 遇 
到 参数 中 市 数组 的 阔 数 ， 这 是 一 个 很 好 的 机 会 让 我 们 回顾 C.1 节 中 所 说 的 天 于 C 语 言 是 如 何 处 理 参 数 为 数组 的 冰 数 的 : CES He 
同 数组 存储 开始 处 的 内 存 地 址 指针 值 传递 进去 ， 而 不 是 传递 整个 数组 。C 语 言 在 声明 时 使 用 星 号 表明 一 个 指针 类 型 变量 ， 所 以 


distanceArray 的 前 两 个 参数 float*out 和 float*in 表 示 指 向 浮 点 型 数组 的 指针 。 


代码 清单 C.7 dist v2/aux functions.cpp 


1 #include "aux functions.h" 

2 #include <math.h> 

3 

4 float scale(int i, int n) 

5 { 

6 return ((float)i) / (n - 1); 

7 } 

8 

9 Eloat distance(float xl, Eloat x2) 
10 { 
a ie | return sqrt((x2 - x1)*(x2 - x1)); 
17 4 
13 
14 void distanceArray(float *out, float *in, float ref, int n) 


15 { 

16 for (int i = 0; i < n; ++i1) 

17 { 

18 out [i] = distance(in[il, ref); 
19 } 

20 } 


distanceArray () 函数 包含 一 个 for 循 环 ， 循 环 体 内 读 取 输 入 数组 的 第 | 个 元 素 in[i]， 计 算 其 到 ref 的 距离 ， 并 存储 到 输出 数 
组 对 应 的 位 置 out 巾 中。 注意 函数 原型 告 并 了 编译 器 in 和 out 是 指向 浮 点 数 的 指针 ， 所 以 在 函数 体内 数组 名 字 前 融 不 需要 函数 原型 
中 的 类 型 和 星 号 了 。 


指针 运算 


除了 用 于 声明 ， 星 号 还 用 于 解 引 用 运 草 符 ， 返 回 指针 变量 所 指 内 存 处 的 值 。 虽 然 有 些 情况 下 显 式 的 解 引 用 是 合适 的 ， 但 是 对 
于 数组 操作 来 说 是 不 必要 的 。 如 果 数 组 的 名 字 是 一 个 指向 该 数组 起 始 位 置 的 指针 。 例 如 ，ipn 指 向 输入 数组 的 起 始 位 置 一 一 那么 为 
么 我 们 不 使 用 型 号 来 访问 数组 中 的 值 呢 ?答案 是 我 们 不 仅仅 使 用 名 称 in。 我 们 将 in 当 作 一 个 数组 ， 所 以 我 们 的 代码 中 包含 的 不 
是 im， 而 是 in 站。 编译 器 将 in 四 分 解 为 * (inti) ， 这 翻译 成 自然 语言 就 是 “将 in 增 加 i 并 返回 所 在 位 置 存 储 的 值 ”。 因 为 in 指 向 输入 
数组 的 起 始 位 置 ， 并 且 编 译 器 知道 按 存 储 一 个 浮 点 数 所 需 的 内 存 大 小 来 增加 指针 ， 所 以 in 四 返回 了 第 i 个 元 素 。 如 果 你 真 的 包含 
一 个 星 号 ， 可 能 会 发 生意 外 ， 因 为 存储 在 数组 中 的 二 进 制 值 将 被 无 意 地 当成 内 存 地 址 。 


注意 distanceArray () 返回 类 型 为 void， 这 一 开始 看 起 来 可 能 有 操 奇 怪 ， 但 实际 在 C 语 言 中 是 很 正常 的 。 由 于 C 语 言 参 数 是 
按 值 传递 的 ， 所 以 一 个 函数 无 法 直接 修改 它 的 任何 参数 。 如 果 你 想 在 一 个 C 语 言 浮 数 中 修改 一 个 实体 (一 个 变量 或 者 数组 元 
素 ) ， 传 进去 的 参数 应 该 是 该 实体 的 指针 ， 而 不 是 实体 本 身 。 指 针 (实体 的 内 存 地 址 ) 保持 不 变 ， 但 是 函数 可 以 在 这 个 实体 的 位 
置 存储 一 个 新 值 ; 而 且 这 一 切 都 不 需要 函数 返回 任何 值 。 (在 第 3 章 中 ， 我 们 将 看 到 有 几 类 非常 重要 的 函数 的 返回 值 类 型 只 能 是 
void， 不 允许 返回 任何 值 。) 


是 时 候 生 成 并 测试 这 个 应 用 了 。 如 果 你 在 运行 Linux， 那 么 过 程 和 dist_v1 只 有 一 点 点 的 不 同 。 除 了 创建 一 个 包含 代码 清单 

至 C.7 中 的 代码 文件 main.cpp、aux functions.h 以 及 aux functions.cpp 的 目录 外 ， 你 还 需要 在 dist_ v2 目录 中 创建 一 个 新 的 
Makefile。 代 码 清单 C.8 中 给 出 了 dist_v2/Makefile 的 代码 。 生 成 这 个 应 用 ， 用 cuda-gdb 在 main () 末尾 的 返回 语句 上 设置 一 
个 断 点 ， 并 验证 结果 和 dist_v1 中 的 一 致 。 


代码 清单 C.8 dist v2/Makefile 


NVCC = /usr/local/cuda/bin/nvcc 
NVCC FLAGS = -g -G -Xcompiler -Wall 


all: main.exe 


main.exe: main.o aux functions.o 
$ (NVCC) $^ -o $@ 


main.o: main.cpp aux functions.h 
$ (NVCC) $(NVCC FLAGS) -c $< -o $@ 


aux functions.o: aux functions .cpp aux functions.h 
$ (NVCC) $(NVCC FLAGS) -c $< -o $@ 


人 在 Visual Studio 中 ， 创建 一 个 新 的 dist_v2 工 程 ， 将 main.cpp 添 加 到 工程 中 ， 并 像 你 在 dist_v1 中 所 做 的 那样 删除 
kernel.cu。 然 后 向 工程 中 添加 新 文件 aux functions.cpp 以 及 aux functions.h。 (注意 当 你 选择 Project 坟 Add New Item 一 
C++ 时 ， 你 可 以 选择 添加 一 个 .h 文 件 ， 或 者 一 个 .cpp 文 件 。) 将 代码 清单 C.5 至 C.7 中 的 代码 录入 对 应 的 文件 中 ， 并 在 Debug 模 
式 下 编译 。 在 main () 底部 的 返回 语句 处 设置 一 个 断 点 ， 开 始 调 试 ， 并 在 Locals 面 板 中 查看 结果 。 验 证 in 数 组 中 的 元 素 从 0 均匀 
增长 到 1， 并 且 out 数 组 中 的 距离 值 和 dist_v1 计 算 的 值 一 致 。 


阅读 消息 和 警告 


如 果 你 遵循 上 述 指示 ， 你 的 编译 应 该 是 成 功 的 。 但 是 有 时 候 事 与 愿 违 ， 而 我 们 希望 为 这 种 情况 做 好 准备 ， 因 此 让 我 们 制造 一 
个 错误 。 将 aux_functions.cpp 中 的 #include<math.h> 注 释 挤 ， 并 重新 编译 这 个 应 用 。 编 译 器 会 产生 一 条 错误 信息 ， 这 里 提醒 你 注意 
编译 时 产生 的 错误 和 警告 。 图 C.10 显 示 的 错误 信息 出 现在 Visual Studio 的 Output 面 板 中 。 用 于 指示 整体 成 功 或 者 失败 的 “末尾 带 
线 文字 ”非常 重要 ， 但 是 要 习惯 于 查看 其 上 部 。 从 其 上 两 行 我 们 可 以 知道 aux_functions.cpp 的 第 11 行 发 生 了 一 个 特定 的 错误 AF 
误 C3861) 。 你 现在 拥有 几 个 有 用 的 工具 来 解决 这 个 问题 。 你 可 以 在 搜索 引擎 中 输入 ettot C3861 identifier not found 来 找到 额外 
的 信息 ， 例 如 “即使 使 用 参数 相关 的 查找 ， 编 译 器 也 无 法 找到 一 个 标识 符 的 引用 。 你 黄 至 可 以 在 Output 面 板 中 单 击 这 个 错误 使 


光标 移动 到 代码 面板 中 对 应 的 位 置 。 


这 些 工 具 对 于 解决 当前 的 问题 可 能 有 点 大 材 小 用 ，sgrt 无 法 识别 仅仅 是 因为 我 们 忘记 了 包含 数学 库 头 文件 ， 但 是 我 们 强烈 建 
而 不 仅仅 是 查看 末尾 带 线 文字 。 


议 你 在 编译 时 养 成 仔细 查看 详细 信息 的 习惯 


Output 
Show output from: [Build | EE 
- Rebuild All started: Project: dist_v2, Configuration: Debug x64 
1> main.cpp 
1> aux_functions.cpp 


hn error C3861: ‘sqrt’: identifier not found 
1> cener ne code.. 


图 C.10 Visual Studio 的 Output 面 板 显 示 在 代码 编译 对 时 产生 的 错误 信息 


C.8.3 “含有 动态 内 存 的 dist_v2 


至 此 已 经 讨论 了 我 们 所 需要 的 大 部 分 C 语 言 的 天 键 概念 ， 但 是 还 有 一 个 主题 需要 注意 。 我 们 目前 所 创建 的 数组 都 具有 较 小 的 


固定 长 度 ， 所 以 这 些 数组 可 以 放 入 栈 内 存 中 。 但 是 栈 内 存 是 有 限 的 ， 而 且 当 你 将 dist_v2/main.cpp 中 的 #define N 64 换 成 
#define N 20000000 时 将 引 友 段 销 误 。 对 于 更 大 的 数组 (而 且 大 数组 在 CUDA 中 是 非 昔 重 要 的 ) 或 者 在 编 详 时 不 知 其 大 小 的 数 
组 ， 我 们 需要 采取 一 个 不 同 的 方法 。 代 码 清单 C.9 中 显示 了 一 个 使 用 动态 内 存 管理 的 改进 版 dist_v2 来 处 理 大 数组 的 方法 。 


代码 清单 C.9 ” 带 有 动态 内 存 管理 的 dist_v2/main.cpp 


1 #include "aux functions.h" 
2 #include <stdlib.h> // supports dynamic memory management 


3 
4 #define N 20000000 // A large array size 
5 
6 int main () 
7 { 
8 float *in = (float*)calloc(N, sizeof(float)) ; 
9 float *out = (float*)calloc(N, sizeof (float) ) ; 
10 const float ref = 0.5€£; 
11 
12 for (int i = 0; i < N; ++i) 
13 { 
14 in[i] = scale(i, N); 
15 } 
16 
a distanceArray(out, in, ref, N); 
18 
19 // Release the heap memory after we are done using it. 
20 free (in); 
21 free (out); 
22 return 0; 
23 } 


修改 后 的 代码 只 包 合 少量 的 变化 : 
含 stdlib.h 头 文件 来 支持 对 动态 内 存 管理 函数 的 调用 。 


` 在 第 8 行 和 第 9 行 我 们 通过 显 式 的 声明 指针 #in 和 #out， 并 用 (float*) calloc (N, sizeof (float) ) 的 返回 值 给 它们 赋值 ， 来 
创建 数组 ， 这 样 会 分 配 (并 初始 化 为 0) 足够 的 连续 内 存 来 存储 N 个 浮 点 数 。 调 用 calloc 会 返回 所 分 配 内 存 的 起 始 位 置 ， 并 且 
(float*) 会 将 返回 值 转换 成 “指向 浮 点 类 型 的 指针 类 型 。 最 终结 果 是 数组 的 名 字 又 是 一 个 指向 数组 在 内 存 中 起 始 位 置 的 指 
针 ; 但 是 现在 它 是 堆 内 存 而 不 是 栈 内 存 ， 所 以 数组 大 小 可 以 很 大 ， 而且 可 以 在 运行 时 决定 。 


在 第 20 行 和 第 21 行 ， 我 们 释放 了 分 配 用 于 存储 数组 的 内 存 。 


将 dist_v2/main.cpp 中 的 代码 蔡 换 成 代码 清单 C.9 中 的 修改 版 本 ， 在 调试 模式 下 编译 ， 在 第 20 行 (在 计算 之 后 ， 内 存 释放 之 
By) 设置 一 个 断 点 ， 并 开始 调试 。 


注意 ， 碍 看 堆 中 数组 值 跟 村 中 数组 的 过 程 不 一 样 。 在 Linux 中 使 用 cuda-gdb，out[5000]@100 命 令 将 打印 从 第 2000 个 元 素 
开始 的 100 个 数组 元 素 。 在 Visual Studio 中 ， 数 组 元 素 不 能 再 通 过 Locals 面 板 (只 能 得 看 栈 内 人 存 ) 来 查看 了 ， 而 是 使 用 Watch 窗 
口 。 (如 果 还 没有 打开 Watch 窗口 则 选择 DEBUG 之 Windows 之 Watch 之 Watch1。) 在 Watch 窗口 的 Name 列 输入 
out+5000，100 来 显示 从 第 ?2000 个 元 素 开 始 的 100 个 元 素 。 (我 们 在 这 里 用 到 了 一 点 揭 针 运算 ， 但 是 不 要 陷入 这 里 的 细节 。 ) 
你 可 以 再 次 单 击 名 字 旁 的 三 角形 来 查看 按 行 显示 的 元 素 。 


看 完 这 篇 附录 后 你 应 该 了 解 C 语 言 编 程 的 基础 了 ， 包 括 声 明和 定义 变量 和 冰 数 、 简 单 的 控制 结构 以 及 基础 的 数组 操作 。 你 应 
该 也 对 出 现在 第 1 草 中 的 样 例 应 用 dist_v1 和 dist_v2 有 了 基本 的 理解 ， 这 些 例子 也 为 我 们 在 第 3 草 中 使 用 CUDA 进 行 并 行 化 提供 了 
6 学 习 样 例 。 
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附录 DD” CUDA 实践 技巧: 计时 、 性 能 分 析 、 销 误 处 理 与 调试 


本 附录 将 着 重 介绍 一 些 CUDA 实 践 中 的 实用 技巧 ， 帮 助 读者 学 习 一 些 能 够 在 以 后 的 项 目 开 发 中 用 到 的 技术 。 我 们 将 着 重 介绍 
以 下 几 部 分 内 容 : 


“ 运行 计时 与 性 能 分 析 


. 错误 处 理 


.CUDA 调 斌 工具 


D.1 运行 计时 与 性 能 分 析 


开始 创建 CUDA 程 序 时 ， 你 可 能 会 想 量化 代码 的 性 能 (如 果 你 一 点 都 不 在 意 性 能 ， 那 你 的 CUDA 可 能 还 没入 门 ) 。 虽 然 标准 
C 语 言 也 有 相关 计时 方法 ,但 由 于 CPU 与 GPU 之 间 同 步 的 问题 可 能 造成 测 时 不 准确 ， 所 以 我 们 也 将 对 基于 CUDA C 和 Nsight 的 
CUDA 提 供 的 测 时 方法 进行 介绍 。 


D.1.1 RECESI ATRAZ 


C 语 言 当前 版 本 中 包含 一 个 头 文件 <time.h> ， 该 文件 中 定义 了 一 个 时 间 变 量 clock_t， 一 个 获取 程序 到 目前 为 止 的 运行 时 间 
的 函数 clock () ， 以 及 一 个 将 clock () 函数 结果 转换 为 以 秒 为 单位 的 冲 量 CLOCKS_PER_SEC。 简单 的 例子 我 们 就 能 
最 直观 地 了 解 这 种 方法 。 本 书 第 3 章 中 有 一 个 示例 程序 “dist v2 cuda” , 该 程序 用 标准 C 语 言 计时 方法 测量 了 一 个 核 函 数 的 执 
行 时 间 以 及 输入 数据 从 主机 端 复制 到 设备 端的 时 间 。 


代码 清单 D.1 罗 列 了 dist_v2_cuda/kernel.cu 文 件 中 的 计时 代码 。 修 改 main.cpp 文 件 中 数组 大 小 定义 的 代码 #define N 
256000， 可 使 kernel.cu 文 件 中 测试 的 时 间 产 生 改 变 


代码 清单 D.1 dist v2 _cuda/kernel.cu 插 入 的 cpu 计 时 代码 用 于 测量 把 输入 数据 从 主机 器 复制 到 设备 新 的 耗 时 


oo y AU BUNE 


#include "kernel.h" 

#include <stdio.h> 

#include <time.h> 

#define TPB 32 

#define M 100 // Number of times to do the data transfer 


_ device _ 
float distance(float x1, float x2) 
{ 
return sqrt((x2 - x1)*(x2 - x1)); 
} 
_ global | 
void distanceKernel (float *d out, float *d_in, float ref) 
{ 
const int i = blockIdx.x*blockDim.x + threadIdx.x; 
const float x = d_in[i]; 
d out[i] = distance(x, ref); 
} 
void distanceArray (float *out, float *in, float ref, int len) 


{ 
Float *d_in = 0; 
float *d out = 0; 
cudaMalloc(&d_in, len*sizeof (float) ); 
cudaMalloc(&d_ out, len*sizeof (float) ) ; 


// Record the clock cycle count before data transfer. 
clock 七 memcpyBegin = clock() ; 
// Copy input data from host to device M times. 
for (int i = 0; i < M; ++i) 
{ 
cudaMemcpy (d_in, in, len*sizeof (float), 
cudaMemcpyHostToDevice) ; 
} 


// Record the clock cycle count after memory transfer. 
clock 七 memcpyEnd = clock() ; 


clock 七 kernelBegin = clock() ; 
distanceKernel<<<len/TPB, TPB>>>(d_ out, din, ref); 
clock_t kernelEnd = clock(); 


cudaMemcpy(out, d_out, len*sizeof(float), cudaMemcpyDeviceToHost) ; 


// Compute time in seconds between clock count readings. 
double memcpyTime = 

((double) (memcpyEnd - memcpyBegin) ) /CLOCKS PER SEC; 
double kernelTime = 


49 ((double) (kernelEnd - kernelBegin) ) /CLOCKS PER SEC; 


50 

51 printf ("Kernel time (ms): %f\n", kernelTime*1000) ; 

52 printf ("Data transfer time (ms): %f\n", memcpyTime*1000) ; 
53 

54 cudaFree (d_in)j; 

55 cudaFree (d_out) ; 

56 } 


以 下 是 这 段 代码 的 一 个 小 结 : 
- 通过 #include<time.h> 这 行 代码 引用 标准 计时 库 函 数 。 
:常量 M 定 义 了 数据 重复 传输 的 次 数 。 
- distanceArray () 中 所 做 修改 包括 : 


第 29 行 与 第 37 行 的 代码 memcpyBegin=clock () 与 memcpyEnd=clock () 保存 了 内 存 复 制 的 初始 CPU 时 间 与 结束 CPU 时 


间 。 

使 用 fot 循 环 对 复制 操作 循环 执行 M 次 。 

- 第 39 行 与 第 41 行 的 代码 kernelBegin=clock () 4kernelEnd=clock () 保存 了 核 函 数 执行 的 初始 CPU 时 间 和 结束 CPU 时 
间 。 


- 将 记录 的 CPU 时 间 差 的 单位 都 转换 成 秒 。 


在 搭载 NVIDIA GeForce GT 650M 的 OS X 系 统 上 运行 该 示例 程序 ， 得 到 的 结果 如 下 : 


Kernel time (ms): 0.032000 
Data transfer time (ms): 41.790000 


数据 的 传输 时 间 是 正确 的 ， 但 核 溺 数 的 执行 时 间 却 是 错误 的 。 为 什么 这 个 计时 方法 对 内 存 传输 有 效 ， 对 核 浮 数 执行 却 无 效 
T? 这 个 问题 涉及 一 个 的 重要 概念 ， 在 CUDA 程 序 中 ， 有 两 类 完全 不 同 的 操作 : 


` 同步 操作 : 对 计算 流 进行 阻塞 ,防止 其 他 操作 的 执行 。 
` 异步 操作 : 在 异步 操作 执行 的 同时 允许 其 他 操作 的 执行 。 


数据 复制 默认 是 同步 的 ， 所 以 当 cudaMemcpy () 执行 完毕 时 CPU 才 人 允许 继续 执行 如 读 取 时 钟 和 读 取 结束 时 间 等 其 他 操 
作 。 但 另 一 方面 ， 核 函数 的 执行 却 是 异步 的 。 核 函数 一 启动 ，CPU 就 会 继续 执行 其 他 任务 ， 它 会 在 核 函 数 完全 执行 完毕 之 前 就 
读 取 时 钟 的 值 ， 并 将 其 赋 给 kernelEnd。 接 下 来 我 们 将 介绍 CUDA 提 供 计时 方法 ， 其 主要 基于 CUDA 事 件 ， 对 同步 和 异步 操作 均 
能 计时 。 


D.1.2 CUDA 事 件 


CUDA 拥 有 一 套 自 己 的 计时 机 制 ， 以 防止 CPU 与 GPU 之 间 同 步 导 致 的 问题 并 提供 更 精准 的 测量 。 在 CUDA 的 API 中 ， 有 一 个 
特殊 的 数据 类 型 cudaEvent t， 以 及 如 下 所 示 的 几 个 与 CUDA 事 件 相 天 的 天 键 函 数 : 


- cudaEventCreate () 与 cudaEventDesttoy () 负责 创建 和 销毁 事件 (命名 具有 顾名思义 的 效果 ) o 


- cudaEventRecord () 负责 记录 时 间 。 
- cudaEventSynchronize () 用 于 确保 异步 函数 全 都 执行 完毕 。 
. cudaEventElapsedTime () 负责 将 两 个 事件 记录 转 成 运行 时 间 (以 毫秒 为 单位 )。 


再 次 强调 ， 了 解 这 些 消 数 的 最 好 方法 就 是 实践 ， 因 此 我 们 将 直接 在 distanceArray () 函数 中 使 用 CUDA 事 件 来 计时 。 代 码 
清单 D.2 为 kernel.cu 文 件 的 升级 版 ， 其 主要 采用 CUDA 事 件 AP1 对 数据 从 主机 端 复制 到 设备 端 以 及 核 函 数 的 执行 进行 计时 。 


代码 清单 D.2 dist_v2_cuda/kernel.cu， 使 用 CUDA 事 件 对 内 存 从 主机 广 复 制 到 设备 端 以 及 核 消 数 执行 的 计时 方案 进行 了 


1 #include "kernel.h" 

2 #include <stdio.h> 

3 #define TPB 32 

4 #define M 100 // Number of times to do the data transfer 
5 

6 _ device _ 

7 float distance(float x1, float x2) 

8 { 

9 return sqrt((x2 - x1)*(x2 - x1)); 
10 } 
LL 
12 global _ 
13 void distanceKernel (float *d_out, float *d_in, float ref) 
14 { 
15 const int i = blockIdx.x*blockDim.x + threadIdx.x; 
16 const float x = d_inf[il]; 
17 d out([i] = distance(x, ref); 
18 } 
19 
20 void distanceArray(float *out, float *in, float ref, int len) 
21 { 
22 // Create event variables for timing. 
23 cudaEvent t startMemcpy, stopMemcpy; 
24 cudaEvent 七 startKernel, stopKernel; 
25 cudaEventCreate (&startMemcpy) ; 
26 cudaEventCreate (&stopMemcpy) ; 
wy cudaEventCreate (&startKernel) ; 
28 cudaEventCreate (&stopKernel) ; 
29 
30 float *d in = 0; 
31 float *d out = 0; 
32 cudaMalloc(&d in, len*sizeof(float) ); 
33 cudaMalloc(&d out, len*sizeof (float) ) ; 
34 
35 // Record the event that "Starts the clock" on data transfer. 
36 cudaEventRecord(startMemcpy) ; 


37 // Copy input data from host to device M times. 


38 for (int i = 0; i < M; ++i) 

39 { 

40 cudaMemcpy(d_in, in, len*sizeof (float), 
41 cudaMemcpyHostToDevice) ; 

42 


43 // Record the event that "stops the clock" on data transfer. 
44 cudaEventRecord(stopMemcpy) ; 


45 

46 // Record the event that "Starts the clock" on kernel execution. 
47 cudaEventRecord(startKernel) ; 

48 distanceKernel<<<len/TPB, TPB>>>(d out, din, ref); 

49 // Record the event that "stops the clock" on kernel execution. 
50 cudaEventRecord (stopKernel) ; 

SL 

52 // Copy results from device to host. 

53 cudaMemcpy (out, d _ out, len*sizeof (float), cudaMemcpyDeviceToHost) ; 
54 

55 // Ensure timed events have stopped. 

56 cudaEventSynchronize (stopMemcpy) ; 

57 cudaEventSynchronize (stopKernel) ; 

58 

59 // Convert event records to time and output. 


60 float memcpyTimelInMs = 0; 
61 cudaEventElapsedTime (&memcpyTimelInMs, startMemcpy, stopMemcpy) ; 
62 float kernelTimeInMs = 0; 


63 cudaEventElapsedTime (&kernelTimeInMs, startKernel, stopKernel) ; 
64 printf ("Kernel time (ms): %f\n", kernelTimelInMs) ; 

65 printf ("Data transfer time (ms): %f\n", memcpyTimelInMs) ; 

66 

67 cudaFree(d_in); 

68 cudaFree (d out) ; 

69 } 


注意 ， 在 这 段 代 码 中 我 们 创建 了 四 个 事件 : startMemcpy 与 stopMemcpy 用 于 测量 数据 复制 时 间 ，startKerne 上 与 
stopKerne| 用 于 测量 核 冰 数 执行 时 间 。 在 需要 计时 的 每 个 操作 (代码 段 ) 执 行 之 前 和 执行 之 后 运行 CudaEventRecord () & 
数 ， 即 便 是 异步 的 核 冰 数 局 动 也 不 例外 。 在 使 用 cudaEventElapsedTime () 将 事件 记录 转化 为 时 间 之 前 ,调用 
cudaEventSynchronize () 函数 进行 同步 。 在 搭载 NVIDIA GeForce GT 650M 的 OS X 系 统 上 运行 该 示例 程序 ， 得 到 的 结果 如 
下: 


Kernel time (ms): 1.066176 
Data transfer time (ms): 42.495968 


注意 ， 数 据 传输 时 间 与 标准 C 万 法 计时 的 结果 基本 一 人 至， 但 是 核 浮 数 的 执行 时 间 比 标准 C 万 法 测量 的 时 间 更 精准 ， 标 准 C 万 
法 测量 的 时 间 小 了 30 信 ， 丢 挥 了 大 部 分 核 辫 数 的 执行 时 间 。 


D.1.3 ”使 用 NVIDIA Visual Profiler 进 行 性 能 分 析 


NVIDIA Visual Profiler (NVVP) 是 一 款 跨 平台 的 可 视 化 性 能 分 析 工 具 ， 其 包含 在 CUDA Toolkit 中 。 此 处 我 们 将 只 对 
NVVP 进 行 简要 介绍 ， 读 者 可 以 阅读 其 文档 了 解 详情 ， 文 档 地 址 为 https://docs.nvidia.com/cuda/profiler-users- 
guide/index.html, 


局 动 NVVP (在 Linux 或 OS X 操 作 系统 中 使 用 售 令 行 输入 nvvPp，Windows 操 作 系统 中 双击 NVVP 图 标 即 可 ) ，NVVP 的 主 窗 
口 如 图 D.1 所 示 。 
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图 D.1 NVVP 主 窗口 


一 旦 界面 出 现 ， 从 File 荣 单 下 单 击 New Session， 将 弹出 一 个 Create New Session 的 对 话 框 ， 如 图 D.2 所 示 。 


Ņ Create New Session > [Ee 


Executable Properties 
Set executable properties 
| Connection: Local Y Manage connections... 
Toolkit: CUDA Toolkit 7.5 (C:/Program Files/NVIDIA GPU Computing Toolkit/CUDA/v7.5 Manage... 
File: Dropbox\bookCode\appendix_d\dist_v2_profiling\x64\Release\dist_v2_cuda.exe | Browse... 
Working directory: Enter working directory [optional] Browse... 
Arguments: Enter command-line arguments 
Profile child processes v 
Environment: Name Value Add 
Delete 
< Back | Next > Finish Cancel 


图 D.2 ”选择 可 执行 程序 dist_v2_cudaexe (如 果 你 在 Linux 下 使 用 Makefile 编 译 ， 会 得 到 可 执行 程序 dist_v2_cuda/main.exe) 创建 新 
会 话 的 对 话 框 


进入 想 要 进行 性 能 分 析 的 CUDA 程 序 的 文件 夹 下 ， 选 择 相应 可 执行 程序 ， 单 击 Next (该 对 话 框 也 能 对 那些 需要 命令 行 参 数 
的 程序 进行 参数 配置 ) 。 之 后 会 进入 Executable Properties 页 面 ， 保 持 默 认 选 项 ， 单 击 Finish。 


除非 Run guided analysis 选 项 未 被 选中 ， 否 则 NVVP 将 目 动 执行 该 程序 ， 并 生成 一 个 主机 端 和 设备 端的 时 | 间 轴 。 查 看 标 为 
compute 的 标签 行 ， 在 时 间 轴 的 右 侧 可 以 看 到 一 些 信息 。 使 用 缩放 工具 和 滚动 条 可 以 看 清 其 为 一 个 条 形 块 ， 代 表 核 函数 的 执 
行 。 单 击 条 形 块 选择 distanceKernel () ABN (此 时 其 他 条 目 颜色 会 黯淡 ) ， 查 看 Properties 标 签 可 以 看 到 核 函 数 的 各 种 状态 
言 息 ， 如 核 函 数 的 执行 时 间 Duration ， 该 执行 时 间 单 位 为 毫秒 。 


除了 时 间 轴 ， 在 NVVP 窗 口 下 方 提供 了 各 种 标签 页 ， 如 Analysis、Details、Console 以 及 Settings。 查 看 Analysis 标 签 页 ， 
可 以 看 到 有 两 个 图 标 ， 一 个 是 数字 列表 图 标 ， 一 个 是 无 序 符号 列表 图 标 ， 分 别 表示 guided analysis 与 unguided analysis, FAP 
可 以 在 guided 模 式 下 逐步 获取 不 同 的 性 能 分 析 结 果 ， 也 可 以 在 unguided 模 式 下 根据 自己 的 需要 获取 指定 的 性 能 分 析 结 果 。 图 
D.3 显 示 了 对 dist_v2_cuda 程 序 进行 性 能 分 析 的 截图 : 对 应 时 间 轴 选中 Default 行 、Details 标 等 页 的 信息 。 该 标签 页 提供 了 在 程 
序 进行 性 能 分 析 时 每 次 内 存 复制 操作 的 时 间 以 及 每 个 核 函 数 启动 的 时 间 。 
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各 要 碍 看 核 国 数 的 性 能 ， 可 选择 Analysis 标 签 页 下 的 guided analysis 图 标 ， 单 击 Examine Individual Kernels, AGI RA— 
个 核 浮 数 ， 其 占据 了 GPU 全 部 的 计算 时 间 。 单 击 之 后 会 出 现 一 个 Performance Critical Kernel 列 表 。 选 定 需 要 分 析 的 核 消 数 ， 
单 击 Perform Kernel Analysis。NVVP 窗 口中 显示 Performance is Bound by Memory Bandwidth， 表 明 distanceKernel () 
核 溺 数 只 使 用 少 部 分 计算 资源 ， 并 且 执 行 时 间 也 只 占 思 体 执行 时 间 的 一 小 部 分 ， 绝 大 部 分 时 间 花 在 了 内 存 传输 上 。 另 外 ，NVVP 
还 提供 了 Perform Memory Bandwidth Analysis, Perform Compute Analysis 以 及 Perform Latency Analysis 等 其 他 几 种 性 
能 分 析 功 能 。 内 存 市 吏 分 析 提 供 了 内 存 传输 的 相关 统计 数据 并 提供 优化 性 能 的 一 些 建议 。 计 算 分 析 也 提供 了 SM 使 用 情况 的 相关 
统计 数据 以 及 高 效 利 用 SM 资源 的 相关 建议 。 延 迟 分 析 提 供 了 与 所 请 求 数据 的 可 用 性 相关 的 统计 信息 和 建议 。 


dist_v2_cuda 程 序 需要 传输 大 量 的 数据 ( 几 十 万 个 浮 点 数 在 主机 端 与 设备 刑 之 间 往 返 传 输 ) ， 然 后 每 个 线程 计算 一 个 距离 
值 。 内 存 囊 宽 分 析 显 示 执 行 时 间 被 主机 端 与 设备 端 内 存 传输 最 大 速率 限制 了 ， 程 序 基本 没有 可 提升 的 空间 ， 因 此 dist_v2_cuda 程 
序 基本 无 需 再 进行 性 能 优化 。 第 5 草 中 提供 了 一 个 示例 程序 ， 该 程序 的 主要 瓶 人 须 在 于 内 存 传输 ， 并 通过 使 用 分 块 与 共享 内 存 获 得 
了 较 大 的 性 能 提升 。 


为 了 保证 完整 性 ， 我 们 也 芝 试 使 用 unguided analysis 模 式 来 进行 性 能 分 析 查 看 相关 信息 ， 如 图 D.4 所 示 。 尽 管 设备 内 存 市 
宽 达到 了 最 大 性 能 的 95%， 但 内 存 市 宽 依 然 补 认为 是 程序 性 能 的 限制 苯 须 。 
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图 D.4 NVVP unguided analysis 模 式 下 对 dist_v2_cuda 程 序 性 能 分 析 的 信息 
D.1.4 ”使 用 Nsight Visual Studio 进 行 性 能 分 析 


Nsight Visual Studio 也 能 生成 运行 时 间 和 性 能 分 析 信 息 ( 若 读 者 希望 在 一 台 机 器 上 开发 CUDA 程 序 ， 在 另 一 台 机 器 上 运行 
ZIE, MIY ree 打开 Visual Sutdio， 选 择 NSIGHT 二 Start Performance mage 然后 会 出 现 一 个 


Activity 页 面 (弹出 这 个 页 面 之 前 可 能 先 会 出 现 一 个 系统 授权 运行 Nsight Monitor 的 对 话 框 ) ， 该 页 面包 含 奉 干 个 窗口 ， 如 图 
D.5 所 示 。 
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Search Solution Explorer PP 
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Activity Type Trace Application 


Collects events from the target application. The analysis session and data collection are stopped when the 
launched application exits. 


salvadoid 


© Trace Process Tree 
Collects events from the target application and all native child processes of the target application. The analysis 
session and data collection are not stopped when the launched application exits, The session and data collectio 
must be stopped manually, 

© Profile CUDA Application 
Collects counters, statistics and derived values for given CUDA kernel launches. 

() Profile CUDA Process Tree 
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Available Devices: Enable at least one [v] Open Report on Stop 
GeForce 840M (GM108) provider in Trace Settings. Summary Report 


图 D.5 i##NSIGHT= Start Performance Analysis 之 后 出 现 的 Activity 页 面 
` 在 活动 页 面 的 顶部 ， 有 一 个 Application Settings 窗 口 ， 该 窗口 中 的 默认 设置 不 需要 修改 。 
同样 也 不 要 修改 Triggetrs and Actions 窗 口中 的 选项 。 
` 重要 的 选项 都 在 Activity Type 窗口 中 ， 其 提供 了 四 个 选项 : 
- Trace Application 
- Trace Process Tree 
* Profile CUDA Application 


- Profile CUDA Process Tree 


我 们 将 从 默认 选项 Trace Application 开 始 介 绍 ， 选 中 该 选项 后 程序 执行 时 Nsight 会 收集 相关 信息 并 在 程序 执行 结束 时 生成 
一 份 报告 。 当 选中 Trace Application 或 Trace Process Tree 选项 时 ， 可 以 对 下 方 的 Trace Settings 下 拉 框 中 的 选项 进行 设置 ， 选 
择 需 要 收集 的 信息 ， 如 图 D.6 所 示 。 我 们 现在 的 目的 是 获取 CUDA 性 能 分 析 信 息 ， 因 此 需要 选中 CUDA 这 个 复 选 框 (你 也 可 以 单 
击 CUDA 复 选 框 旁边 的 小 三 角形 ， 选 择 CUDA 这 一 栏 下 的 子 选 项 ， 收 集 指 定 信息 ) 。 


D] dist v2 cuda - Microsoft Visual Studio ME Quick Launch (ctl+gl P = M X 
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© Profile CUDA Application 
Collects counters, statistics and derived values for given CUDA kernel launches. 


ta] Solution ‘dist_v2_cuda’ (1 () Profile CUDA Process Tree 
p dist v2 _ cuda 
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Collects counters, statistics and derived values for given CUDA kernel launches from the target application and 
all native child processes of the target application. The analysis session and data collection are not stopped 
when the launched application exits. The session and data collection must be stopped manually. 
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salad 


Trace Settings Domains: CUDA 


|_| System (2/5) CPU Thread Trace, Module Trace 

|_| Tools Extension (4/4) Markers, Push/Pop Ranges, Start/End Ranges, Resource Naming 

[w| CUDA (4/4) Driver API Trace, Runtime API Trace, Software Counters, Kernel Launches and Memor. 
[| Opence (3/3) API Trace, Resource Trace, Program Source Code, Program Build Callback Trace, Pro... 
[_] DirectX (7/9) API Trace, CPU Frames, GPU Frames, Push Buffers, Shader Compiles, Performance M... 
| | OpenGL (6/6) API Trace, CPU Frames, GPU Frames, Draw Calls, Transfers, Dispatches 


Connection Status on Control | Capture Control 


— ; start 
| Pre | “> | Stop 
Kill a Cancel 


Available Devices: W] Open Report on Stop 


图 D.6 ”选择 Trace Application 并 下 拉 展 开 Ttace Settings 选 中 CUDA 选 项 时 的 Activity 页 面 


在 Trace Settings 下 方 有 三 个 小 窗口 : 


` 左边 是 Connection Status 窗 口 ， 在 一 个 绿色 的 圆 球 下 方 列 出 了 所 有 可 用 的 GPU 设 备 ( 假 定 Nsight 已 经 成 功 地 连接 上 当前 


GPU) 
- 中 间 是 Application Conttol 窗 口 ， 其 提供 了 一 个 Lauhch 按 钮 控制 程序 的 使 用 。 
- 右边 是 Captute Conttol 窗 口 ， 该 窗口 可 以 手动 控制 性 能 分 析 的 开始 与 结束 。 


SracApplication Control 窗 口 的 Launch 按 钮 时 ， 应 用 程序 会 开始 运行 ， 然 后 会 出 现 一 个 活动 报告 窗口 ， 窗 口中 的 
Summary Report 报 告 显 示 了 收集 到 的 性 能 数据 。Session Overview 报 告 了 收集 到 的 所 有 数据 的 整体 运行 时 间 。CUDA 
Overview 显 示 了 在 收集 信息 这 段 时 间 内 CPU 与 GPU 的 占用 比 。 在 显示 Summary Report 的 下 拉 菜 单 中 还 有 一 些 选项 可 供 查 看 。 

其 中 我 们 最 感 兴趣 的 就 是 Timeline 了 ， 过 可 视 化 的 方式 显示 了 在 程序 执行 过 程 中 和 CUDA 相 关 的 各 种 操作 ， 如 图 D.7 所 示 。 
用 户 可 以 通过 按 住 Ctrl 键 滑动 鼠标 滚轮 ， 拖 擅 滚 动 条 来 查看 时 间 轴 上 自己 感 兴 趣 的 时 刻 。 
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Output 


图 D.7 dist v2_cuda 程 序 生 成 的 时 间 轴 


创建 了 dist _v2_cuda 程 序 的 时 间 轴 之 后 ， 你 可 以 看 到 cudaMemcpy () 函数 的 调用 ， 还 可 通过 对 时 间 轴 进行 缩放 ， 来 查找 


目 己 需要 的 核 函 数 。 如 果 单 击 时 间 轴 上 对 应 的 条 形 块 


(如 Compute 行 中 标记 为 distanceKernel 的 条 形 块 ) ， 然 后 单 击 下 方 下 拉 


项 Row Information 的 Compute 子 项 ， 即 可 查看 核 消 数 相关 的 详细 信息 ， 包 括 执 行 时 间 等 (测量 的 时 间 与 NVVP 测 量 的 时 间 基 


AAE, RAILS) 。 


到 目前 为 止 , 我 们 已 经 能 够 获取 核 函数 的 执行 时 间 ， 接 下 来 我 们 将 对 其 他 的 实践 扩 巧 进行 介绍 。 


D.2 错误 处 理 


本 书 使 用 的 CUDA 函 数 属于 CUDA 运 行 时 API 辐 。CUDA 运 行 时 API 函 数 会 返回 一 个 cudaError t 类 型 的 数据 ， 用 以 检查 函数 
调用 是 否 有 错误 BJ。 与 计时 部 分 的 讨论 一 样 ， 同 步 函 数 与 异步 函数 的 处 理 方式 也 有 所 不 同 。 


都 将 在 其 他 错误 出 现 乙 前 残 已 出 现 ， 


同步 函数 的 处 理 万 式 比 较 人 简单 ， 因 为 只 有 在 同步 消 数 执行 结束 之 后 才能 继续 执行 下 一 个 操作 ， 所 以 无 论 可 能 出 现 何 种 错误 ， 


“会 定位 不 准 错误 。 因 此 ， 对 于 同步 类 型 的 函数 ， 我 们 只 需 将 其 函数 调用 的 返回 值 赋 给 一 个 


cudaError t 类 型 的 变量 即 可 。 例 如 ， 为 一 个 输入 数组 分 配 一 块 设备 内 存 : 


cudaMalloc(é&d_in, 


len*sizeof (£loat)) ; 


为 了 在 调用 该 操作 出 现 错误 时 发 出 警告 ， 可 把 函数 调用 作为 赋值 操作 的 右 侧 ， 赋 ie ae 量 (此 处 该 变 
Beyer) 。 然 后 使 用 一 个 if 条 件 语句 判断 err 是 否 等 于 cudaSuccess， 若 等 于 则 表示 没有 错误 产生 ， 否 则 ， 调 用 


cudaGetErrorString () 尔 数 ， 返 回 该 错误 的 字符 串 表 达 方 式 。 这 上段 代码 如 下 所 示 ， 代 码 主 要 完成 了 内 存 分 配 、 错 误 检 查 以 及 
获取 错误 摘 述 (如果 人 存在 错误 ) 并 输出 到 屏幕 。 


cudaError t err = cudaMalloc(&d_in, len * sizeof (float) ); 
if (err != cudaSuccess) printf("%s\n", cudaGetErrorString (err) ) ; 


UR MEERA tinea SiS, BAR SASSI, ARS SCUDARSLAIAT RABIN DIX ESAS. 


注意 ， 如 果 要 重复 使 用 一 个 变量 进行 错误 检查 ， 那 么 在 第 一 次 使 用 这 个 变量 的 时 候 必须 对 其 类 型 进行 声明 ， 即 变量 声明 ， 之 
后 使 用 时 丈 只 需要 将 立 数 调用 的 返回 值 赋 给 该 变量 即 可 ， 无 需 表 进行 变量 声明 。 上 面 这 段 代 码 为 d_in 分 配 了 一 块 显存 并 进行 了 错 
误 检查 ， 同 理 ，d_out 的 显存 分 配 和 错误 检查 亦 可 如 此 。 


err = cudaMalloc(&d out, len * sizeof(float)); 
if (err != cudaSuccess) printf("%s\n", cudaGetErrorString(err) ) ; 


如 果 你 想 让 这 段 代码 稍微 简洁 一 些 ， 可 以 从 CUDA Samples 中 包含 一 个 名 为 helper cuda.h 的 头 文件 ， 该 头 文件 可 以 在 示例 
文件 夹 下 的 commominc 子 文件 夹 下 找到 ， 每 次 调用 CUDA 国 数 时 ， 可 以 使 用 checkCudaErrors () 团 数 将 调用 封装 起 来 ， 这 样 
调用 出 现 错误 时 就 会 在 标准 输出 中 打印 错误 信息 。 在 代码 文件 的 项 部 加 入 #include<helper_cuda.h> 这 行 代码 ,分 配 显 存 并 进 
行 错误 检查 的 代码 就 可 以 写成 下 面 这 种 形式 : 


checkCudaErrors (cudaMalloc(&d in, len * sizeof(float))) ; 


核 冰 数 的 错误 处 理 亡 式 稍 有 不 同 。 首 先 核 国 数 是 void 类 型 ， 没 有 返回 值 ， 也 惑 没有 错误 值 ， 所 以 我 们 只 能 通过 其 他 函数 调用 
来 获得 错误 值 。 有 两 种 独立 的 错误 需要 我 们 处 理 ， 一 种 是 核 冰 数 局 动 时 出 现 的 同步 错误 (例如 ， 在 核 肖 数 局 动 时 显存 和 计算 网 格 
的 大 小 超过 了 可 用 范围 ) ， 另 一 种 是 在 核 冰 数 执行 期 间 出 现 的 异步 错误 。 我 们 可 以 通过 在 核 函 数 局 动 之 后 立刻 调用 
cudaGetLastError () 或 cudapPeekAtLastError () 内 置 为 数 来 获得 同步 错误 。 而 对 于 异步 错误 ， 我 们 必须 调用 
cudaDeviceSynchronize () 确保 核 冰 数 已 经 执行 完毕 。 下 面 这 段 代 码 展 示 了 核 函 数 局 动 时 同步 错误 和 异步 错误 的 处 理 方式 : 


distanceKernel<<<len/TPB, TPB>>>(d out, d in, ref); 


cudaError t errSync = cudaGetLastError () ; 
cudaError 七 errAsync = cudaDeviceSynchronize() ; 
if (errSync != cudaSuccess) 
printf ("Syne kernel error: %sn", cudaGetErrorString(errSync) ; 
if (errAsync != cudaSuccess) 
printf ("Async kernel error: sn", cudaGetErrorString(errAsync) ; 


使 用 helper_cuda.h 头 文件 中 的 函数 可 以 让 代码 更 简洁 : 


distanceKernel<<<len/TPB, TPB>>>(d out, din, ref); 
checkCudaErrors (cudaPeekAtLastError () ) ; 
checkCudaErrors (cudaDeviceSynchronize() ) ; 
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可 能 出 现 的 错误 。 虽 然 错误 检查 在 开 友 时 很 有 帮助 ， 但 进行 错误 检查 也 有 一 定 代价 ， 那 就 是 降低 了 程序 的 性 能 ， 特 别 是 
cudaDeviceSynchronize () 的 调用 ， 它 会 阻塞 线程 直到 核 函 数 执行 完毕 。 为 了 高 效 的 开 友 ， 同 时 也 保证 程序 的 性 能 ， 许 多 开 
上 友 者 只 在 开 友 的 过 程 中 使 用 错误 检查 ， 而 在 程序 的 友 布 版 本 中 不 使 用 。 代 码 清 单 D.3 为 dist_v2_cuda 应 用 程序 的 kernel.cu 文 件 中 
的 错误 检查 代码 。 


代码 清单 D.3 ”为 dist v2 cuda/kernel.cu 代 码 加 入 错误 处 理 


#include "kernel.h" 
#include <helper cuda.h> 
#define TPB 3200 


_ device _ 
float distance(float x1, float x2) 


{ 
| 


return sqrt((x2 - x1)*(x2 - x1)); 
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11 global | 
12 void distanceKernel (float *d out, float *d in, float ref) 


13 { 

14 const int i = blockIdx.x*blockDim.x + threadIdx.x; 

1S const float x = d in[i]; 

16 d _ out [i] = distance (x, ref); 

17 :| 

18 

19 void distanceArray (float *out, float *in, float ref, int len) 
20 { 


21 float *d in = 0; 
22 float *d out = 0; 
( 
( 


23 checkCudaErrors (cudaMalloc(&d in, len*sizeof(float) )); 
24 checkCudaErrors (cudaMalloc(&d out, len*sizeof(float))); 
25 

26 checkCudaErrors (cudaMemcpy(d_in, in, len*sizeof (float), 
27 cudaMemcpyHostToDevice) ) ; 

28 

29 distanceKernel<<<len/TPB, TPB>>>(d out, din, ref); 

30 checkCudaErrors (cudaPeekAtLastError() ) ; 

al checkCudaErrors (cudaDeviceSynchronize()); 

32 

33 checkCudaErrors (cudaMemcpy (out, d_out, len*sizeof(float), 
34 cudaMemcpyDeviceToHost)); 

35 checkCudaErrors (cudaFree (d_in)); 

36 checkCudaErrors (cudaFree (d_out)); 

37 } 


注意 ， 由 于 我 们 包含 了 helper_cuda.h 头 文件 ， 所 以 编译 设置 必须 进行 修改 ， 以 便于 编译 器 能 够 找到 该 头 文件 。 代 码 清 
D.4 为 编译 带 错 误 处 理 的 程序 的 Makefile 文 件 的 修改 方式 。 对 于 Visual Studio 用 户 ， 可 参考 D.6 节 ， 详 细 了 解 如 何 指定 附加 包含 
文件 夹 的 路 径 。 


代码 清单 D.4 ” 带 错 误 处 理 的 dist_v2_cuda 程 序 的 Makefile 文 件 


NVCC = /usr/local/cuda/bin/nvcc 
NVCC FLAGS = -g -G -Xcompiler -Wall 
INC = -I/usr/local/cuda/samples/common/inc 


all: main.exe 


main.exe: main.o kernel.o 
S(NVCC) $^ -o $@ 


oo y KN UP WD Pp 
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main.o: main.cpp kernel.h 
S(NVCC) $ (NVCC FLAGS) -c $< -o $@ 
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kernel.o: kernel.cu kernel.h 
14 S(NVCC) $ (NVCC FLAGS) $(INC) -c $< -o $@ 


现在 ， 我 们 来 看 一 个 错误 处 理 的 例子 。 将 代码 的 第 3 行 #define TPB 32 修 改 为 #define TPB 3200， 重 新 编译 工程 并 运行 ， 


会 得 到 以 下 错误 信息 : 
CUDA error at kernel.cu:30 code=9 (cudaErrorIinvalidConf iguration,) 


在 CUDA 运 行 时 API 文 档 的 “Data types used by CUDA Runtime” 小节 找到 “CUDA Error Types” 查 看 所 有 错误 编码 ， 
可 以 看 到 错误 编码 9 是 这 样 定义 的 : "This indicates that a kernel launch is requesting resources that can never be 
satisfied by the current device.Requesting more shared memory per block than the device supports will trigger this 
error, as will requesting too many threads or blocks。” (这 表明 当前 设备 资源 无 法 满足 核 函 数 启动 的 条 件 。 当 每 个 线程 块 
使 用 了 过 多 的 共享 内 存 或 者 线程 数 、 线 程 块 数目 超出 限制 时 该 错误 会 触 友 。) 通过 错误 处 理 机 制 ， 我 们 得 知 由 于 每 个 线程 块 开局 
了 过 多 的 线程 才 造 成 错误 。 


最 后 ， 我 们 来 看 看 如 何 避 免 错 误 。 许 多 错误 (一些 错 误会 产生 输出 信息 ， 一 些 错误 则 只 是 产生 错误 的 计算 结果 ) 只 需 我 们 注 
总 下 竺 解决 问题 的 规模 和 设备 计算 网 格 大 小 与 设备 性 能 相符 即 可 避免 。 典 型 的 ， 如 我 们 需要 处 理 一 个 指定 规模 (数组 大 小 即 可 表 
示 问 题 规模 ) 的 问题 ， 我 们 只 需 确 定 需要 多 少 个 线程 块 能 履 关 整个 数组 ， 并 且 确 保 在 对 数组 进行 读 写 访问 时 不 会 出 现 数组 走 界 。 
通常 只 需要 简单 地 做 个 整数 除法 册 加 个 if 判 断 束 可 以 解决 。 


假设 我 们 要 对 一 个 长 度 为 N 的 数组 进行 计算 ，TPB 表 示 每 个 线程 块 的 大 小 。 如 果 N 是 TPB 的 整数 倍 ， 那 么 N/TPB 束 是 需要 开 
局 的 线程 块 的 数目 。 但 是 ， 如 果 N 比 TPB 的 整数 倍 还 大 一 点 ， 那 么 则 需要 额外 开局 一 个 线程 块 处 理 数组 末尾 剩 下 的 那 一 部 分 。 


事实 上 ， 在 计算 时 无 需 条 件 判断 也 能 正确 计算 出 线程 块 的 数目 ， 只 需 进 行 如 下 代码 所 示 的 简单 整数 除法 即 可 : 
GRIDSIZE = (N + TPB - 1)/TPB 


注意 ， 如 果 用 标准 的 公式 计算 每 个 线程 访问 的 数组 索引 ， 那 最 后 一 个 线程 块 部 分 线程 计算 的 率 引 将 大 于 N-1 (长 度 为 N 的 数 
组 最 大 系 引 为 N-1) 。 此 处 融 需 要 用 到 if 条 件 判断 。 


在 核 浮 数 里 面 ， 将 计算 部 分 放 入 if (i< N) 人 条件 判断 语句 内 部 执行 ， 这 样 束 能 确保 计算 过 程 中 访问 的 数据 都 是 我 们 需要 
(有 效 ) 的 数据 。 另 外 ， 也 可 以 使 用 一 种 等 价 的 方法 来 处 理 超出 数组 学 围 的 部 分 ， 即 当 索 引 超出 学 围 核 阔 数 直接 返回 。 


1£(1 >= N) return; 
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_ global | 


void distanceKernel (float *d out, float *d in, 


int 1 = blockIdx.x * blockDim.x + threadIdx.x; 


if (i >= len) return; 


d out[i] = distance(d in[1i], ref); 


| 


float ref, int len) 


distanceKernel<<<((len + TPB - 1)/TPB, TPB>>>(d_ out, din, ref, len); 


确保 核 消 数 局 动 参数 的 有 效 性 稍微 有 些 复杂 ， 因 为 不 同 设备 的 限制 条 件 (一 个 线程 块 能 开局 的 最 大 线程 数 ) 不 同 。 另 外 ， 代 


码 的 可 用 性 也 与 设备 相关 ， 例 如 双 精 度 计算 、 动 态 并 行 束 受 限 于 运行 
使 用 的 CUDA 特 性 ， 但 你 无 法 决定 用 户 使 用 何 种 GPU。 为 了 解决 这 个 
其 是 否 满足 程序 运行 的 要 求 : 


代码 设备 的 计算 能 


。 当 你 开 友 一 个 程序 时 ， 你 可 以 选择 要 


问题 ，CUDA 提 供 了 以 下 几 个 图 数 用 于 检查 安 逆 的 设备 ， 看 


- cudaGetDeviceCount () 函数 以 一 个 int 类 型 变量 的 地 址 作为 输入 ， 将 当前 可 用 CUDA 设 备 的 数目 返回 赋 给 该 int 变 量 。 


- cudaGetDeviceProperties () 函数 以 cudaDevicePtop 结 构 体 变 


到 cudaDeviceProp 结 构 体 中 。 


代码 清单 D.5 为 获取 CUDA 设 备 数量 以 及 设备 属性 的 相 天 代码 。 


代码 清单 D.? 查询 指定 CUDA 设 备 属性 的 代码 


量 地 址 和 设备 编号 的 整 型 值 作 为 输入 ， 将 该 设备 相关 属性 写 入 


1 #include <stdio.h> 

2 

3 int main() { 

4 int numDevices; 

5 cudaGetDeviceCount (&numDevices) ; 

6 printf ("Number of devices: %d\n", numDevices) ; 

7 for (int i = 0; i < numDevices; ++i) { 

8 printf ("--------------------------- \n*") ; 

9 cudaDeviceProp cdp; 

10 cudaGetDeviceProperties(&cdp, i); 
i printf ("Device Number: ¢d\n", i); 

12 printf ("Device name: %s\n", cdp.name) ; 

13 printf ("Compute capability: %td.%d\n", cdp.major, cdp.minor) ; 
14 printf("Maximum threads/block: %d\n", cdp.maxThreadsPerBlock) ; 
15 printf ("Shared memory/block: %lu bytes\n", 
16 cdp.sharedMemPerBlock) ; 

iv printf("Total global memory: %lu bytes\n", 
18 cdp.totalGlobalMem) ; 

19 } 
20 } 
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体 的 成 员 变 量 ， 可 参考 CUDA 运 行 时 API 了 解 更 多 详细 内 容 ， 或 者 阅读 CUDA Samples 中 的 deviceQuery 示 例 程序 代码 了 解 如 何 
获取 你 感 兴趣 的 细节 (如 果 使 用 的 是 Windows 操 作 系 统 ， 你 也 可 以 通过 Visual studio 的 NSIGHT 一 Systemlnfo 一 CUDA 
Devices 音 找 属性 信息 ) 。 


D 
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3 在 Windows 系 统 中 调试 


此 处 我 们 将 对 Nsight 提 供 的 一 个 特殊 工具 进行 介绍 ， 即 CUDA 代 码 调 试 工具 。 我 们 仍 将 及 用 dist_v2_cuda 示 例 程 序 进 行 具体 
介绍 。 利 用 该 工具 查看 核 浮 数 计算 的 每 个 值 。 首 先 需 要 注意 的 是 ，Nsight 是 专门 针对 CUDA 代 码 的 软件 ， 在 使 用 Nsight 调 试 工 
时 ， 断 点 必须 设置 在 程序 的 CUDA 代 码 部 分 。 核 函数 毫 无 疑问 是 CUDA 代 码 ， 因 此 我 们 可 以 将 断 点 设置 在 distanceKernel () 

数 的 第 一 行 ( 断 点 的 设置 与 在 Visual Studio 中 常规 调试 时 一 致 ) 。 调 试 时 不 是 单 击 DEBUG 菜 单 (或 按 F5 键 ) ， 而 是 单 击 


NSIGHT 菜 单 下 的 Start CUDA Debugging. 


程序 会 正音 执行 到 核 冰 数 开始 处 的 断 点 ， 然 后 会 出 现 包含 具体 信息 的 Locals (局 部 变量 ) 窗口 ， 类 似 于 图 D.8 所 示 。 


Locals 
Name Value Type 
@ @flatBlockldx | long 
@ @flatThreadidx long 
@ threadidx 3 const uint3 
blockldx const uint3 
blockDim : const dim3 
Pe gridDim | ; const dim3 
@gridid const long long 
i 1 has no value at the target location. 
'x' has no value at the target location. 
0x0000000601540200 0 _device_ float* _ parame 
0 _device_ float& 
0x0000000601540000 0 _device_ float* _ parame 
0 _ device float® 
0.5 float 
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图 DD.8 distanceKernel () 核 函 数 第 一 行 触 发 断 点 时 的 Locals 窗 口 


但 考虑 到 CUDA 的 计算 特性 ， 即 能 够 实现 大 规模 的 并 行 ， 这 迫使 我 们 必须 重新 考虑 调试 的 万 法 。 由 于 许多 线程 同时 在 执行 计 


算 ， 每 个 线程 都 有 目 己 独立 计算 出 的 局 部 值 。 许 多 线程 同时 并 行 执行 ， 对 于 人 而 言 ， 我 们 无 法 将 每 个 线程 的 信息 都 显示 出 来 进行 


查看 ， 图 D.8 中 Locals 窗 口 显示 的 只 是 其 中 一 个 线程 中 变量 和 值 的 信息 。 可 以 看 到 ， 此 处 blockldx 为 0，threadldx 为 0。 此 外 ， 


635 


我 们 还 可 以 看 到 列表 中 显示 的 其 他 变量 ， 如 输入 数据 的 d_in[0] 值 为 0， 还 未 计算 的 局 部 变量 i， 以 及 输出 数据 d_out[0]。 


接着 我 们 可 以 通过 菜单 选项 (DEBUG=Step Into) 或 按 快 捷 键 (F11) 进行 单 步 跟踪 。 更 新 之 后 的 Locals 窗 口 如 图 D.9 所 
。 此 时 变量 已 参与 了 计算 (通常 是 由 blockldx、blockDim 与 threadldx 联 合算 出 ) 并 被 赋予 值 0。 之 后 我 们 便 可 查看 第 0 到 第 
号 这 前 64 个 线程 的 信息 (注意 ，Locals 窗 口上 方 的 @flatThreadldx 是 线程 编号 的 另 一 种 表达 方式 ) 。 


Leocals 
Name 
ww @flatBlockldx 
ww @flatThreadidx 
> @ threadidx 
> @ blockldx 
> @ blockDim 
> @ gridDim 
Ww @gridid 
@ i 
@ x 
d @ d out 
[0] 
4@ din 
i j0] 
@ ref 


Value 


0 
0 


ix = 0, y = 0, z = 0} 
x= 0, y = 0, z = 0} 
(x = 32, y = 1,z= 1} 
m= 2,Y=1,Z= 1} 
1 
0 


x' has no value at the target location. 


0x0000000601540200 0 
Q 

0x0000000601540000 0 
0 

0.5 
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图 D.9 distanceKernel () 4%% 


按 F11 单 步 执行 一 次 ， 可 以 看 到 光标 移动 到 了 下 一 行 执 行 代码 ， 即 distance () 设备 E 
国 数 调用 处 ， 继 续 单 步 则 将 跳 转 至 math.h 文 件 中 sqrt () È 
并 不 是 我 们 的 目的 ， 所 以 我 们 需要 从 这 段 代 码 跳 出 而 并 不 是 继续 单 步 执行 。 


国 数 内 部 sqrt () È 


distance () È 


(Shift+F11) 就 能 单 步 跳出 。 第 一 次 
数 中 。 对 应 的 Locals 窗 口 如 图 D.10 所 示 。 


Locals 


Name 
@ @flatBlockldx 
@ @flatThreadidx 
b @ threadidx 
> @ blockldx 
b 上 blockDim 
b @ gridDim 
@ @qridid 
a | 
oe x 
4@ d out 
@ (0) 
b @ din 
@ ref 


图 D.10 


我 们 可 以 看 到 目标 值 0.5 已 


System Info 窗 口 (该 窗口 是 唯一 一 个 无 需 开 始 Start CUDA Debugsging 就 可 以 查看 的 窗口 ) 提供 的 信息 


单 步 跳出 到 distanceKetnel () 有 函数 的 最 后 


数 单 步 执 行 到 第 


{x=0,y =0,z=0} 

{x = 0, y = 0, z = O} 

{x= 32,y = 1,z= 1} 
{x=2,y=1,zZ= 1} 

1 

0 

0 

0x0000000601540200 0.5 
0.5 
0x0000000601540000 0 
0.5 
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对 计算 出 并 保存 到 d_out[0] 中 ， 但 如 何 便 看 其 他 线程 中 的 该 值 ? 这 
口 了 (选择 菜单 NSIGHT 之 Windows) 。 


数 的 调用 。 表 按 一 次 


Type 

long 

long 

const uint3 
const uint3 
const dim3 
const dim3 
const long long 
int 


_device_ float* _ parame 
_device_ float& 
_device_ float* _ parame 
_device_ float& 

float 


TAY ay Locals 口 


F11 则 进入 了 
数 原 型 处 。 然 而 调试 标准 数学 库 函 数 


选择 菜单 选项 (DEBUG=®Step Out) 或 按 快 捷 键 
按 Shift+F11 快 捷 键 跳 回 到 distance () 中 ， 表 按 一 次 则 会 跳 回 到 distanceKernel () 水 


Type 

long 

long 

const uint3 

const uint3 

const dim3 

const dim3 

const long long 

int 

float 

_device_ float* _ parame 
_device_ float& 
_device_tloat* parame 
float 


一 行 代 码 时 的 Locals 窗 口 


这 时 就 需要 使 用 Nsight 的 调试 窗 


与 当前 任务 无 关 ， 其 


主要 帮助 用 户 了 解 当 前 系统 与 当前 设备 的 相关 信息 。 


- CUDA Debug Focus 窗 口 可 以 允许 用 户 查看 指定 线程 的 局 部 变量 信息 。 例 如 ， 重 启 CUDA 调 试 (4#4DEBUG>Stop 
Debugging Ja i& 4ENSIGHT Start CUDA Debugging) , Ja &4#NSIGHT—= Windows CUDA Debug Focus， 之 后 会 弹出 一 个 窗 
口 ， 让 你 输入 希望 查看 的 线程 块 与 线程 索引 。 作 为 一 个 具体 的 例子 ， 我 们 设置 需要 查看 的 线程 块 的 索引 为 0，0，0， 而 线程 的 索 
引 由 0，0，0 变 为 1，0，0。 (由 于 我 们 的 计算 网 格 是 一 维 的 ， 索 引 的 三 维 结构 变量 里 只 有 第 一 维 有 效 ; 对 于 多 维 计算 网 格 ， 请 阅 
读 第 4 章 和 第 7 章 。) 单 步 进 入 计算 部 分 ， 可 以 看 到 i 值 赋 为 了 1 (这 样 我 们 的 焦点 就 移 到 了 64 个 线程 的 第 二 个 线程 ) ， 但 是 当 我 们 
展开 d_in 与 d_out 时 ， 发 现 其 显示 的 值 仍然 是 索引 0 的 值 而 不 是 索引 1 的 值 ， 这 是 因为 Locals 窗 口 显 示 的 是 局 部 变量 的 值 ， 但 对 于 每 
个 线程 而 言 ，d_in 与 d_out 并 不 是 局 部 变量 。 (每 个 线程 只 能 对 以 核 函 数 参 数 传 入 的 指针 进行 访问 ， 并 且 能 直接 访问 的 只 有 数组 
的 初始 元 素 ， 例 如 d_in[0] 与 d_out[0]。) 


解决 这 种 限制 的 一 种 简单 方法 就 是 创建 一 个 局 部 变量 ， 然 后 将 相关 数据 赋 给 当前 线程 的 局 部 变量 以 便 显 示 。 例 如 ， 我 们 可 以 
对 distanceKernel () 函数 进行 一 定 修改 ， 用 变量 y 和 变量 qd 分 别 表示 输入 位 置 和 输出 距离 : 


= global _ 
void distanceKernel (float *d in, float *d out, float ref, int len) 


int 1 = blockIdx.x * blockDim.x + threadIdx.x; 
float y = d in([i]J; 

Float d = distance(y, ref); 

d out[i] = d; 

printf ("distance = %f\n", d out [i]); 


FETI, FAIA MACUDAIAi. Fela LUBWIeeLCUDA Debug Focus 中 的 线程 块 宗 引 与 线程 论 3|， 碍 看 Locals 
窗口 中 的 变量 y 与 变量 d 来 观察 指定 线程 的 输入 与 输出 数据 (注意 ， 局 部 变量 只 是 临时 能 够 查看 ， 若 编译 器 进行 过 优化 ， 可 能 无 
ABA) 。 到 目前 为 止 , 我 们 依然 相信 计算 出 的 结果 d 值 是 正确 的 保存 在 数组 d_out 中 。 编 程 经 验 告诉 我 们 一 个 一 般 规则 ， 相 信 
计算 机 完全 理解 了 你 的 意图 是 危险 的 ， 因 此 我 们 必须 用 一 种 直观 的 方法 核实 存 于 d_out 中 的 结果 。 让 我 们 继续 介绍 Nsight 的 窗 
口 ， 找 到 一 个 工具 达到 这 个 目的 。 


` 开始 一 个 新 的 CUDA 调 试 会 话 ( 单 击 DEBUG 一 Stop Debugsging 之 后 选择 NSIGHT 一 Start CUDA Debugging) ， 选 择 NSIGHT 
=Windows ®CUDA Info， 然 后 会 出 现 一 个 窗口 显示 了 计算 相关 的 各 种 人 信息。 目前， 我们 只 查看 两 个 最 相关 的 选项 。 单 击 窗口 中 


的 下 拉 菜 单 ， 选 择 Warps， 然 后 会 看 到 两 行 信息 ， 分 别 是 线程 块 为 0，，0，0 与 1，0，0 的 线程 束 相 关 信 息 ， 如 图 D.11 所 示 。 


CUDA Info 1 ~*~ Ax 
— s . — o 
(¢) Warps |E > |W Filter: Viewing 2/2 


| CUcontext Grid 1D) blockhdx Warp Index| threadldx PC) Ac! Status) Ex! Ex! Gl) Fil) Source Line| Lanes 


| | | 上 


exicsorsdox® 1% ( 1, 0, 9) a(o O, 96) ex 6x Or NoNo Noke 1 M TD 


图 D.11 CUDA Info 窗 口中 焦点 在 threadIdx={0，0，0} 且 blockIdx={0，0，0} 项 上 时 线程 来 相关 信息 


在 最 右 侧 可 以 看 到 有 一 组 绿色 的 如 盒子 一 样 的 标志 ， 其 表示 计算 单元 (每 个 表示 带 有 一 个 流 处 理 器 的 计算 单元 ) ， 线 程 束 中 
的 每 个 线程 都 在 这 些 单元 中 执行 。 红 色 盒 子 表 示 该 单元 中 的 线程 执行 到 了 断 点 处 。 红 色 盒 子 中 可 以 看 到 一 个 黄色 的 稍 头 ， 表 示 当 
前 CUDA 调 试 主要 集中 在 threadldx={0，0，0} 且 blockldx={0，0，0} 的 线程 上 。 与 CUDA Debug Focus 窗 口 一 样 ， 双 击 该 窗口 


中 的 绿色 盒子 ， 可 以 改变 当前 聚焦 的 线程 。 图 D.12 显 示 了 改变 A O}Eblockldx={1, 0, O}AYZE 
程 ， 单 步 运行 越过 断 点 。 可 以 看 到 黄色 箭头 也 发 生 了 改变 ， 通 过 Locals 窗 口 查看 变量 ji 对 应 的 相关 值 。 


blockIdx.x * blockDim.x + threadIdx.x = 1*32 + 3 = 35 


回 到 下 拉 菜 单 ， 选 择 Lanes， 将 看 到 当前 焦点 线程 束 的 32 个 线程 的 相关 信息 ， 包 括 线程 泰 引 与 活动 状态 。 该 窗口 无 法 让 我 们 
查看 保存 在 d_out 数 组 的 值 ， 但 在 其 他 方面 提供 了 有 用 信息 ， 这 些 信息 将 来 我 们 会 用 到 ， 现 在 ,我 们 将 继续 介绍 下 一 个 (也 是 最 
后 一 个 ) 窗口 。 


CUDA Info 1 ~*~ Ax 
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图 D.12 CUDA Info 窗 口中 焦点 在 thteadIdx=13，0，0} 且 blockIdx=1{0，0，0} 项 上 ， 单 步 越 过 断 点 时 的 相关 信息 


- #4&NSIGHT = Window—CUDA Warp Watch 一 CUDA Warp Watch 1， 将 打开 一 个 窗口 ， 窗 口 左 侧 一 列 显示 着 Name 与 


Type， 接 着 是 0 到 31 这 些 数 。 如 果 你 看 到 Name 与 Type 就 能 联想 到 C 语 言 中 变量 的 命名 方式 ， 说 明 你 的 直觉 还 不 错 。 如 果 在 Name 的 
右 列 输入 一 个 变量 名 ， 则 这 一 列 将 显示 出 当前 线程 束 每 个 线程 中 该 变量 的 值 。 如 果 输 入 i、d_in 罩 与 d_out 加 这 三 个 变量 名 ， 然 后 单 
步 执 行 到 distanceKetnel () 函数 的 最 后 一 行 代码 ， 从 CUDA WarpWatch1l 窗 口中 可 以 看 到 当前 线程 来 中 每 个 线程 的 索引 值 、 输 入 值 
以 及 计算 的 距离 输出 值 ， 如 图 D.13 所 示 。 


CUDA WarpWatch 1 Ox 
> Name |@ i @ dinți] @ d_outfi] <Add Watch>...) | _ 
Type int _ device float& device float& 
0 0 0 0.5 
1 1 0.015873017 0.48412699 
2 2 0.031746034 0.46825397 
3 | 3 0.04 7679049 0.45238096 
4 4 0.063492067 0.43650794 
5 - 0.079365082 042063493 F 
6 6 0.095238097 040476191 
Li Fi 0.11111111 0.3888889 
8 8 0.12698413 0.37301588 
9 9 0.14265/15 0.35/1420/ 
10 10 0.15873016 0.34126985 
11 11 0.17460318 0.32539684 
12 12 0.19047619 0.3095238?2 =z 
13 13 0.20634921 0.29365081 
14 14 Oe22eeeee 027777779 
15 15 0.23809524 0.26190478 
16 16 0.25396827 0.24603173 
17 17 0.26984128 0.23015872 
18 18 O.265/ 143 O.2 142857 
19 19 0.30158731 19841269 
20 Ja L 由 EL OR SOR) 


图 D.13 执行 到 distanceKernel () 函数 最 后 一 行 时 第 一 个 线程 束 中 d_in 罩 与 d_out 目 在 Warp Watch 1 窗口 中 的 显示 结果 


若 要 查看 其 他 线程 束 中 的 值 ， 可 利用 之 前 介绍 的 CUDA Debug Focus 或 CUDA Info 窗 口 进 行 选择 ( 当 切 换 到 新 线程 束 时 ， 
程序 只 执行 到 断 点 处 ， 需 再 次 使 用 单 步 跟踪 执行 到 输出 结果 计算 且 保 存 的 代码 处 ) 。 


到 目前 为 止 ， 我 们 已 经 能 从 碍 看 单个 线程 中 的 所 有 局 部 变量 上 友 展 到 同时 查看 一 个 线程 束 中 的 所 有 信息 。 各 要 一 次 性 查看 整个 
数组 中 的 所 有 值 ， 则 需要 直接 查看 数组 存储 的 内 存 块 。 在 核 遂 数 的 最 后 一 行 代码 设置 一 个 断 点， 重新 开启 一 个 CUDA 调 试 会 话 。 
j#=DEBUG=>Windows—Memory—Memory 1 (或 使 用 快捷 键 Alt+6) 打开 一 个 内 存 窗口 。 在 地 址 栏 输入 d_ out，64， 选 
择 4 列 。 窗 口中 第 一 列 为 十 入 进 制 的 内 存 地 址 ， 其 中 并 没有 太 多 有 价值 的 信息 。 如 果 窗 口中 其 他 列 显示 的 不 是 直接 能 读 的 数 ， 则 
可 以 在 该 窗口 中 右键 单 击 ， 选 择 其 他 的 显示 方式 ， 如 32-bit Floating Point (32 位 浮 点 数 ) ， 然 后 可 以 看 到 计算 的 距离 值 大 约 在 


0.008 到 0.5? 之 间 ， 如 图 D.14 所 示 。 
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图 D.14 Memory 1 窗口 中 显示 由 distanceKernel () 函数 计算 且 保 存在 d_out 中 的 64 个 值 (共有 4 列 ) 


至 此 ， 我 们 已 经 能 够 查看 变量 的 值 。 无 论 该 变量 是 线程 中 的 局 部 变量 还 是 保存 在 数组 中 ， 在 CUDA 代 码 执 行 的 各 个 阶段 我 们 
都 能 查看 。 更 多 详细 信息 和 其 他 示例 ， 可 参考 “Nsight Visual Studio Edition” AY “Using the CUDA Debugger” , M 


D4 在 Linux 系 统 中 调试 


对 于 Linux 操 作 系 统 ，NVIDIA Nsight Eclipse Edition 提 供 了 一 个 使 用 方便 的 GUI 前 端 界 面 。 在 本 节 中 ， 我 们 将 采用 非 GUI 
的 方式 来 介绍 cuda-gdb 这 一 工具 ， 其 实 就 是 Nsight Eclipse Edition 调 用 的 调试 器 。cuda-gdb 是 gdb (GNU 调 试 器 ) 的 扩展 版 
本 ， 其 拥有 gdb 的 所 有 功能 ， 并 且 能 够 调试 设备 上 的 CUDA 代 码 。 


OS X 上 的 CUDA-GDB 


随 着 CUDA 7.0 的 发 布 ，CUDA-GDB 已 经 从 OS X 中 移 除 。 对 于 Mac 用 户 ， 可 通过 远程 的 方式 在 Linux 机 器 上 进行 调试 。 


与 性 能 分 析 不 同 ， 调 试 时 程序 必须 编译 且 包 含 调试 信息 。 因 此 ， 利 用 编译 命令 进行 编译 时 ， 需 向 命令 传递 -g 与 -G 这 两 个 参 
数 。 另 外 ， 目 前 为 止 Linux 上 单 GPU 调 试 仍 存在 一 点 小 问题 。 在 Linux 系 统 中 ， 如 果 NVIDIA GPU 的 CUDA 计 算 能 力 在 3.5 及 以 
上 ， 则 可 以 利用 一 个 处 于 测试 中 的 新 特性 进行 调试 ， 无 需 任 何其 他 步骤 。 若 GPU 的 CUDA 计 算 能 力 在 3.5 以 下 ， 也 能 进行 单 GPU 
调试 ， 只 不 过 在 调试 时 需 将 桌面 管理 器 关闭 ， 利 用 控制 台 进 行 调试 。 


接 下 来 ， 我 们 将 利用 dist_v2_cuda 示 例 ， 移 除 其 核 溺 数 中 的 printf () 函数 ， 然 后 编译 (注意 ， 编 译 时 必须 加 入 参数 -g 与 - 
G) 。 程 序 编译 成 功 之 后 ， 使 用 cuda-gdb main.exe 命 令 将 可 执行 程序 加 载 到 cuda-gdb 中 。 若 调试 时 朱 面 管理 器 仍 在 运行 ( 显 
卡 CUDA 计 算 能 力 至 少 为 3.5) ， 则 输入 set cuda software preemption on 以 确保 单 GPU 调 试 时 GUI 的 特性 一 直 为 开启 状态 。 
D.15 显 示 了 Linux 上 调试 的 具体 步骤 。 


920 cuda-gdb main.exe 


+ dist v2 cuda cuda-gdb main.exe 

NVIDIA (R) CUDA Debugger 

7.5 release 

Portions Copyright (C) 2007-2015 NVIDIA Corporation 

GNU gdb (GDB) 7.6.2 

Copyright (C) 2613 Free Software Foundation, Inc. 

License GPLv3+: GNU GPL version 3 or Later <http://gnu.org/Licenses/gpL.html> 
This is free software: you are free to change and redistribute it. 

There 1s NO WARRANTY, to the extent permitted by law. Type "show copying" 
and “show warranty" for details. 

This GDB was configured as “x86 64-unknown-Linux-gnu". 

For bug reporting instructions, please see: 

<http: //ww.gnu.org/software/gdb/bugs/>... 

Reading symbols from /home/duane/Desktop/dist_v2/dist_v2_cuda/main.exe...done. 
(cuda-gdb) set cuda software preemption on 

(cuda-gdb) show cuda software_preemption 

Software preemption debugging is on. 

(cuda-gdb) §j 


图 D.15 ”调试 之 前 cuda-gdb 的 software_preemption 选 项 必须 开启 


输入 break kernel.cu: 14 命 令 ， 在 文件 kernel.cu 中 的 distanceKernel () 国 数 的 第 一 行 加 入 一 个 断 点 ， 另 外 ， 输 入 break 
main.cpp: 26 命 令 ， 在 main.cpp 文 件 中 的 最 后 一 行 加 入 另 一 个 断 点 ， 接 着 使 用 run 命 令 运 行程 序 ， 如 图 D.16 所 示 。 


Ps 


cuda-gdb main.exe 

(cuda-gdb) break kernel.cu:14 

Breakpoint 1 at 0x4828ab: file kernel.cu, Line 14. 

(cuda-gdb) break main.cpp:26 

Breakpoint 2 at 6x4025fa: file main.cpp, Line 26. 

(cuda-gdb) run 

Starting program: /home/duane/Desktop/dist_v2/dist_v2_cuda/main.exe 
[Thread debugging using Libthread_db enabled] 

Using host Libthread_db Library “/lib/x86_64-Linux-gnu/Libthread db.so.1". 
[New Thread @x7ffff6131700 (LWP 3545) ] 

[Switching focus to CUDA kernel 6, grid 1, block (0,0,0), thread (0,0,0), device 6, sm 6, v 
rp ð, Lane 6) 


Breakpoint 1, distanceKernel<<<(2,1,1),(32,1,1)>>> (d_out=0x508a80200, d_in=0x508a80000, 
Fef= 和 .5) at kernel.cu:14 

14 const int i = blockIdx.x*blockDim.x + threadIdx.x; 

(cuda-gdb) next 

[Switching focus to CUDA kernel 6, grid 1, block (0,0,0), thread (0,0,0), device 6, sm 1, wa 

rp 1, lane 0] 

15 const float x = d in[1]; 

(cuda-gdb) print i 

中 1 = 日 

(cuda-gdb) cuda kernel block thread 

kernel ð, block (0,8,0), thread (0,0,0) 

(cuda-gdb) cuda block 1,8,0 thread 5,0,09 

[Switching focus to CUDA kernel 8, grid 1, block (1,0,0), thread (5,0,0), device 6, sm ð,- 

rp 1, lane 5] 

14 const int i = blockIdx.x*blockDim.x + threadIdx.x; 

(cuda-gdb) next 

[Switching focus to CUDA kernel ©, grid 1, block (1,0,0), thread (5,0,0), device 6, sm 1, 

rp 2, lane 5] 

15 const float x = d in[i]; 

(cuda-gdb) print i 

$2? = 37 

(cuda-gdb) fj 


图 D.16 设置 断 点 并 调试 程序 


程序 运行 到 kernel.cu 文 件 的 第 14 行 停止 ， 此 时 当前 的 焦点 线程 与 核 消 数 启 动 参数 一 并 输出 到 屏幕 。 此 刻 ， 索 引 变 量 还 未 设 
置 。 当 执行 到 当前 行 时 ， 输 入 next 命 令 ， 然 后 输入 print 1， 返 回 结果 0， 当 前 处 于 第 一 个 线程 。 使 用 cuda kernel block thread 
命令 可 以 查看 当前 焦点 线程 的 相关 信息 ， 或 者 使 用 print threadldx 与 print blockldx 命 令 ， 通 过 查看 CUDA 变 量 也 能 获得 这 些 信 
息 。 使 用 cuda thread 5，0，0 命 令 查 看 当前 线程 块 中 的 另 一 个 线程 。 现 在 ， 如 果 再 输入 print i 命令 ， 返 回 的 结果 则 是 5， 表 明 
当前 在 第 6 个 线程 。 使 用 cuda block 1, 0, 0 thread 30，0，0 命 令 查 看 另 一 个 线程 块 中 的 线程 。 现 在 ， 由 于 查看 的 线程 块 发 生 


了 变化 ， 第 14 行 的 断 点 重新 触 友 ， 输 入 next 命 令 ， 然 后 输入 print i 命令 查看 泰 引 值 ， 结 果 显 示 为 62， 这 是 因为 当前 焦点 在 1 号 线 
程 块 的 30 号 线程 (32x1+ 30) 。 图 D.17 为 焦点 在 不 同 线程 时 的 状态 。 


现在 ， 输 入 continue 命 令 让 程序 运行 到 核 冰 数 外 的 另 一 个 断 点 。 此 时 ， 程 序 运 行 到 main () 函数 中 ， 输 入 info locals 命 令 
查看 当前 上 下 文中 的 局 部 变量 。 程 序 包 含 两 个 主机 闯 数 组 的 指针 ，in 与 out， 输 入 print out[0]@64 命 令 查 看 out 数 组 中 的 具体 内 
容 。 可 以 看 到 数组 的 开头 为 0.5， 结 尾 也 是 0.5， 中 间 的 数 无 异常 ， 说 明 计 算 基 本 正确 。 至 此 ,程序 中 我 们 感 兴趣 的 部 分 已 经 结 
束 ， 输 入 continue 命 令 让 程序 继续 执行 直至 结束 并 退出 。 图 D.18 显 示 了 最 终 的 几 步 。 


OS® cuda-gdb main.exe 


(cuda-gdb) cuda thread 5,0,0 

[Switching focus to CUDA kernel ©, grid 1, block (0,0,0), thread (5,0,0), device 6, sm 6, wa 
rp 1, lane 5] 

15 const float x = d_in[i]; 

(cuda-gdb) print i 

$4 = 5 

(cuda-gdb) 

(cuda-gdb) cuda block 1,0,0 thread 36,6,0 

[Switching focus to CUDA kernel ©, grid 1, block (1,0,0), thread (30,0,6), device 6, sm 1, w 
arp 1, lane 36] 

14 const int i = blockIdx.x*blockDim.x + threadIdx.x; 

(cuda-gdb) next 

[Switching focus to CUDA kernel ©, grid 1, block (1,0,0), thread (30,0,0), device ©, sm 1, 
arp 2, lane 36] 

15 const float x = d in[i]; 

(cuda-gdb) print i 

$5 = 62 

(cuda-gdb) Jj 


图 D.17 聚焦 不 同 线程 并 单 步调 试 


92 cuda-gdb main.exe 


(cuda-gdb) continue 
Continuing. 


Breakpoint 2, main () at main.cpp:26 

26 free(in); 

(cuda-gdb) info locals 

ref = 0.5 

in = 6x664220 

out = 6x664330 

(cuda-gdb) print out[0]@64 

$1 = {6.5, 6.484126985, 6.46825397, 6.452380955, 0.43650794, 6.420634925, 6.46476191, 

. 388888896, 86.373015881, 8.357142866, 6.341269851, 6.325396836, 0.309523821, 

293050806, 0.2777777191, 80.261904/776, 6.240031/31, Ə.230158716, 0.214265/02, 

. 198412687, 8.182539672, 8.166666657, 9.150793642, 8.134920627, 8.119847612, 

. 103174597, 8.0873015821, 8.6714285672, 0.0555555522, 0.0396825373, 68.0238095224, 

.00793650746, 0.00793653727, 0.0238095522, 0.0396825671, 0.055555582, 0.071428597, 

.0873016119, 0.103174627, 0.119047642, 0.134920657, 0.150793672, 0.166666687, 

. 182539701, 0.198412716, 0.214285731, 6.230158746, 6.246031761, 0.261909094776, 

277777791, 8.293650806, 0.309523821, 0.325396836, 0.341269851, 0.357142866, 

.3/3015881, 0.388888896, 0.46476191, 0.420634925, 6.43650794, 0.452380955, 0.46825397, 
0. 484126985, 0.5} 

(cuda-gdb) continue 

Continuing. 

[Thread 6x7ffff7fd3740 (LWP 3929) exited] 

[Inferior 1 (process 3929) exited normally] 

(cuda-gdb) Jj 


图 D.18 ”继续 执行 到 main.cpp 文 件 中 的 断 点 ， 检 查 最 终结 果 。 注 意 对 指针 使 用 上 | 与 @ 操 作 符 可 决定 打印 动态 数组 值 的 方式 


注意 ,， 程 序 运 行 结束 之 后 断 点 并 没有 目 动 消除 。 使 用 info breakpoints 命 令 可 以 便 看 当前 设置 的 所 有 断 点 ， 使 用 delete 


breakpoint n 命 令 可 以 删除 不 再 需要 的 断 点 ， 其 中 n 为 要 删除 的 断 点 的 编号 ， 或 者 使 用 delete breakpoints 命 令 ， 一 次 性 删除 所 
AT FA 


除了 以 上 介绍 的 gdby/cuda-gdb 的 命令 与 功能 ， 更 多 相关 信息 可 参考 文献 Pp，9。 
D.5 CUDA-MEMCHECK 


最 后 一 个 需要 介绍 的 CUDA 工 具 为 CUDA-MEMCHECK。CUDA-MEMCHECK 是 一 个 轻 量 级 的 运行 时 错误 检测 工具 ， 在 所 
有 平台 上 都 能 使 用 。 其 主要 用 来 检测 内 存 港 漏 、 内 存 访问 错误 以 及 硬件 错误 。 打 开 一 个 命令 行 ， 切 换 到 CUDA-MEMCHECK 程 
序 所 在 文件 来， 输入 cuda-memcheck 以 及 可 执行 程序 的 文件 名 (如 在 Linux 下 输入 cuda-memcheck main.exe， 在 Visual 
Studio 中 输入 cuda-memcheck dist_v2_cuda.exe) 。 程序 将 执行 并 返回 行 在 的 内 存 访问 错误 报告 。 若 未 检测 到 错误 ， 返 回 的 
结果 则 为 ERROR SUMMARY: 0 errors。 更 多 关于 CUDA-MEMCHECK 的 信息 请 查看 在 线 文档 [7]。 


D.6 ”使 用 Visual Studio 属 性 页 


Visual Studio 提 供 了 一 个 相关 属性 页 ， 可 供用 尸 在 编译 和 生成 程序 时 指定 各 种 选项 。 本 忆 我 们 不 会 对 属性 页 的 所 有 细 书 进 
行 介绍 ， 只 会 针对 与 CUDA 开 友 相 关 的 一 些 设置 进行 介绍 。 如 那些 使 用 了 链接 库 的 程序 (例如 第 4 草 中 的 示例 程序 flashlight， 访 
程序 使 用 了 OpenGL 库 ) ， 需 告诉 系统 如 何 找到 相关 头 文件 (在 编译 阶段 引用 ) 与 目标 文件 (将 链接 到 可 执行 文件 中 ) 。 设 置 它 
们 的 步骤 基本 相同 : 


1. 在 Solution Explorer 面 板 中 右键 单 击 项 目 名 称 ， 选 择 弹 出 菜单 中 最 下 方 的 Properties 选 项 (或 使 用 快捷 键 Alt+F7) 。 


2. 依 次 选择 Configuration Properties 之 C/C++ 一 Additional Include Directories， 将 出 现 如 图 D.19 所 示 的 属性 页 面 。 


Configuration: All Configurations ~ Platform: Active(x64) i Configuration Manager... 


|a Configuration Properties 内 LE Mee eee em -Ories);$(CudaToolkitincludeDir) ¥ ^ | 
General Additional #using Directories 
Debugging Debug Information Format Program Database (/7i) 
VC++ Directories Common Language RunTime St 
PC/C+4+ Consume Windows Runtime Ext 
b CUDA C/C++ Suppress Startup Banner Yes (/nologo) 
> Linker Warning Level Level3 (/W3) 
b CUDA Linker Additional Include Directories 
> Manifest Tool Specifies one or more directories to add to the include path; separate ... 
| > XML Document Generator ¥ 


OK | Cancel Apply 


图 D.19 Additional Include Ditectoties 所 在 的 属性 页 面 
3. 单 击 右 侧 如 “v” 形状 的 下 拉 图 标 。 


4. 单 击 <Edithttp://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/16034/OEBPS/Text/...>， 弹 出 Additional Include Directories 对 话 


框 ， 如 图 D.20 所 示 。 


Inherited values: 


$(CudaToolkitincludeDir) 


¥ Inherit from parent or project defaults Macros> > 


A 
Y 
OK Cancel 


图 D.20 “可 输入 新 路 径 目 录 的 Additional Include Directories 3} 4% 4E 
5. 双 击 监 色 条 框 ， 输 入 头 文 件 所 在 目录 的 路 径 ， 单 击 OK 按 钮 。 


6. 依 次 选择 Configuration Properties 之 Linker 一 Additional Library Directories， 将 出 现 如 图 D.21 所 示 的 属性 页 面 。 


at peg aS ee al ine 本 


Configuration: (All Configurations v Platform: Active(x64) {v 


| 4Linker ye 


Configuration Manager... | 


Ignore Import Library 


Genera Register Output No 

Input Per-user Redirection No | 
Manifest File Additional Library Directories %(AdditionalLibraryDirectories);$(Cu 
Debugging Link Library Dependencies Yes | 
System Use Library Dependency InpulNo 

Optimization Link Status v 
Embedded IDL Additional Library Directories 


Windows Metadata 
Advanced y 


Allows the user to override the environmental library path (/LIBPATH:f... 
| OK | | Cancel | Apply 


图 D.21 Additional Library Directories 所 在 的 属性 页 面 


7. 单 击 右 侧 如 “v” 形 状 的 下 拉 图 标 。 


8. 单 击 <Edithttp://www.hzcourse.com/resource/readBook? 


path=/openresources/teach_ebook/uncompressed/16034/OEBPS/Text/...>, 5#t4Additional Library Directories 对 话 
框 ， 如 图 D.22 所 示 。 


9. 双 击 蓝 色 条 框 ， 输 入 库 文件 所 在 目录 的 路 径 ， 单 击 OK 按 钮 。 
10. 依 次 选择 Linker 一 Input 一 Additional Dependencies 二 Edit， 将 链接 库 添 加 a 到 列表 中 ， 链 接 库 文件 如 图 8.3 所 示 。 


11. 最 后 在 属性 页 中 应 用 修改 并 单 击 OK 按钮 。 


Inherited values: 


$(CudaToolkitLibDir) 


Ml Inherit from parent or project defaults 


图 D.22 Additional Library Ditectoties 页 面 中 输入 新 的 目录 路 径 
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